1 7. Vorlesung Statistik II Letzte Änderung: 9. Oktober 2001, 30 Seiten Kapitel 17 Parametrische Tests 17.1 Einige Überlegungen zur Begründung der Testtheorie Nach den beiden vorhergehenden Kapiteln über die Punkt- und Intervallschätzung ist jetzt die wichtige Frage der Beurteilung solcher Schätzwerte zu beantworten. Dazu wird eine Theorie bereitgestellt, mit der der Grad der Unsicherheit solcher Aussagen, etwa über Parameterwerte, deutlich gemacht werden kann. Die Methodenvielfalt zeigt zum einem die Bedeutsamkeit der Fragestellung, zum anderen jedoch auch, daß wie in anderen schwierigen Problemen auch in der Statistik eine Frage mehr als eine Antwort finden kann. Die Faktenausgangslage ist unverändert die alte: Es gibt eine Zufallsstichprobe der Länge n, d.h. n Zufallsvariable (X1, X2, ..., Xn) , für die eine Realisierung (x1, x2, ..., xn) bekannt ist. Mit Hilfe einer Stichprobenfunktion, einer Schätzfunktion θ = g(X1, X2, ..., Xn) bzw. bei vorliegender Stichprobenrealisierung (x 1, x2, ..., xn) θ = g(x1, x2, ..., xn), geht es darum, den Schätzwert θ für den unbekannten wahren Parameter θ aus den Realisierungen zu bestimmen und nach noch vorzustellenden Kriterien zu beurteilen. Dies Grundanliegen ist sehr ähnlich der Theorie des Konfidenzbereichs. Doch die formale Ausgestaltung der Tests unterscheidet sich von der des Konfidenzbereichs. Als erstes soll eine Definition des Tests allgemein vorgestellt werden, dann die in der Definition unerklärten begrifflichen Bestandteile motiviert und schließlich im Rest des Kapitels über eine Folge von Beispielen das Schema des Tests verdeutlicht werden. 17.1.1 Definition (Der statistische Test) Unter den Voraussetzungen des Kapitels 13 (Vorgabe einer identisch verteilten Zufallsstichprobe der Länge n aus einer festgelegten Grundgesamtheit) heißt ein Verfahren, das aufgrund der Stichprobe eine Entscheidung über Annahme oder Ablehnung einer Hypothese erlaubt, ein statistischer Test, bzw. Test. 2 Bemerkung (Abraham Walds statistisches Entscheidungsschema) Die Daten der Stichprobe werden durch drei Mengen von Objekten beschrieben: (a) eine Menge von Zuständen der Natur, denen sich der Statistiker gegenüber sieht (z.B. zwei Zuständen; mehr als zweien, aber endlich vielen Zuständen; einem Kontinuum von Zuständen), (b) eine Menge möglicher Entscheidungen, die der Statistiker treffen kann (z.B. ist Nichtstun eine erste Entscheidungsmöglichkeit; wir gehen im folgenden fast stets von zwei Entscheidungsmöglichkeiten aus; zu dieser Regel siehe den Film Jacubovsky und der Oberst: im Leben gibt es zumindest immer zwei Möglichkeiten; u.U. gibt es beliebig viele diskrete oder möglicherweise stetige Entscheidungsmöglichkeiten) (c) eine Menge von Konsequenzen aus dem Zusammenwirken von Zuständen und Entscheidungen. Sei dies an einem Problem von 2 Zuständen und drei Entscheidungen sowie 6 möglichen Folgen illustriert (Vergl. Luce, Raiffa, S. 276): Für ein Rührei sind bereits 5 gute Eier in die Pfanne gehauen. Um das Rührei auf die richtige Größe zu bringen, ist noch ein sechstes in die Pfanne zu tun. Zur Voruntersuchung des Eis Nr. 6 kann man es vorher in eine Untertasse hauen; dies ändert nicht die Logik, erhöht aber die Menge der Zustände und Entscheidungen. Die Situation kann durch die folgende (3,2)-Entscheidungsmatrix beschrieben werden. Daß dies eine Vereinfachung ist wie alle Modelle der Wissenschaft, ist auch klar. Zustände der Natur Entscheidungen Ei ist gut Ei ist faul 6-Ei Rührei 5 Eier verdorben Probe in Untertasse 6-Ei Rührei Untertasse spülen 5-Ei Rührei Untertasse spülen Ei 6 gleich fortwerfen 5-Ei Rührei Verlust Ei 6 5-Ei Rührei keine Probe in Untertasse 3 Die Menge der Folgen steht offensichtlich in den Feldern der Matrix, während die Entscheidungen durch die Zeilen und die Menge der Zustände durch die Spalten der Matrix dargestellt werden. Genau in einer solchen Lage ist der Statistiker. Die Natur (die Zustandsmenge) wird durch die Menge der Parameterwerte dargestellt, im einfachsten Fall durch zwei Werte: Der Parameter θ hat zwei mögliche Werte, nämlich θ1 und θ2 (oder oft auch in der historisch üblichen Bezeichnung θ0 und θ1). Welcher von beiden der “wahre” ist und ob dies aus der Stichprobe überprüfbar ist, ist unbekannt und gerade durch den Statistiker zu beurteilen. Damit hat der Statistiker zumindest zwei Entscheidungen zu treffen, und der Einfachheit halber seien im folgenden nur zwei Entscheidungen erörtert: entweder legt er sich auf den einen oder den anderen der Parameter fest. M.a.W. der Statistiker muß sich klarwerden, was in seinen Augen zutrifft. Bevor noch erläutert wird, daß dabei die Rolle von θ1 und θ2 nicht symmetrisch ist, soll dieser Rahmen des Tests als erstes im Schema von Wald beschrieben werden: Zustände der Natur (die Menge der Parameterwerte) Entscheidungen des Statistikers Hypothese H0 wird angenommen Hypothese H0 wird abgelehnt Nullhypothese Hypothese H0 θ 0 trifft zu Alternativhypothese Hypothese H1 θ 1 trifft zu richtig falsch Fehler 2. Art falsch Fehler 1. Art richtig 17.1.3 Bemerkung (Fehler 1. Art, Fehler 2. Art): Offensichtlich können in einer solchen Entscheidungssituation zwei Fehlentscheidungen getroffen werden: Man verwirft die Nullhypothese, obwohl die Alternative falsch ist (Fehler 1. Art); dies ist äquivalent zu der Formulierung, man verwirft die Nullhypothese, obwohl sie richtig ist. Die zweite Fehlentscheidung ist, man verwirft die Nullhypothese nicht, obwohl die Alternativhypothese richtig ist (Fehler 2. Art). Die zu prüfenden Parameterwerte werden als Alternativen einander gegenübergestellt; und zwar als sogenannte Nullhypothese derjenige Parameterwert, der auf seine weitere Gültigkeit hin getestet werden soll gegenüber einem (etwa aufgrund neuer Überlegungen, Fertigungstechniken o.ä.) neuen Parameterwert, der in der Alternativhypothese formuliert wird. Durch Vorgabe der Fehlerwahrscheinlichkeit 1. Art wird dann gewissermaßen die Risikobereitschaft ausgedrückt, vom alten Zustand abzurücken, obwohl es besser wäre, diesen alten Zustand beizubehalten. 4 Im folgenden wird die Nullhypothese mit H0 und die Alternativhypothese mit H1 bezeichnet, im allgemeinen in folgender Gegenüberstellung: H0: θ = θ1 gegen H1: θ = θ2 Es sind jedoch auch andere Bezeichnungsweisen üblich, z.B. H1: θ = θ1 gegen H2: θ = θ2 oder H0: θ = θ0 gegen Ha : θ = θa . Zustände der Natur (die Menge der Parameterwerte) Entscheidungen des Statistikers Hypothese H0 θ 0 trifft zu Hypothese H1 θ 1 trifft zu nach Entscheidungsfunktion Annahme von Hypothese H0 1-α P[Fehler 2.Art] = β nach Entscheidungsfunktion Ablehnung von Hypothese H0 P[Fehler 1.Art] = α 1-β 17.1.4 Bemerkung (Irrtumswahrscheinlichkeit und Güte): Die Wahrscheinlichkeit α, d.h. die Wahrscheinlichkeit einen Fehler 1. Art zu machen, wird auch oft einfach als Irrtumswahrscheinlichkeit bezeichnet und die Wahrscheinlichkeit 1-β, die Wahrscheinlichkeit keinen Fehler 2. Art zu machen, als Güte des Tests (power of the test). Dieses allgemeine Schema eines Test sei nun durch eine Folge von Beispielen und durchgerechneter Aufgaben verdeutlicht. Die Beispiele differieren nach wenigen, aber wichtigen Voraussetzungen nämlich danach, wieviel über die betrachteten Zufallsvariablen bekannt ist z.B. Mittelwert und Varianz, z.B. nur die Varianz, z.B. weder Mittelwert noch Varianz, z.B. nur die Verteilung; wie die für den unbekannten zu betrachtenden Parameter zu beschaffende Information aussehen soll z.B. ein fester Wert z.B. eine Schranke für den Wert nach oben oder unten, z.B. eine Schranke für den Wert nach oben und unten; welche und wieviele Beobachtungen (Stichprobe(n)) zur Verfügung stehen. z.B. eine (ein seltener, aber nicht ganz abwegiger Sonderfall), z.B. mehrere, aber endlich viele (der Regelfall), z.B. beliebig viele (ein Fall, der u.U. den Zentralen Grenzwertsatz zur Anwendung bringt.) Unabhängigkeit der Stichprobe wird für unsere Überlegungen stets vorausgesetzt. 5 17.2 Einstichprobentests für Erwartungswerte 17.2.1 Beispiel (Normal-Stichprobe mit bekannter Varianz) Wie im Beispiel 16.1.6 der Konfidenzbereichsbestimmung für Erwartungswerte sei die zu untersuchende Zufallsstichprobe aus einer Normalverteilung mit bekannter Varianz σ2 entnommen, d.h. alle (X 1, X2, ..., Xn) mit den Realisierungen (x1, x2, ..., xn) seien identisch normalverteilt Xi ~N (µ,σ2) (i = 1, 2, 3, ..., n) und zugleich sei σ2 bekannt. Damit gilt wie dort für die Stichprobenfunktion µ = X σ2 σ2 E(µ)= µ, var(µ) = und µ ist normalverteilt: µ ~ N (µ, ). n n Für das Hypothesenpaar H0: µ = µ0 µ0≠µ 1 (o.B.d.A. µ0<µ1) H1: µ = µ1 und die Stichprobenfunktion X sowie eine Schranke k, einen kritischen Wert k (oft µ0<k<µ1) sei die folgende Entscheidungsregel verwandt: (i) Annahmebereich (Akzeptanz-Region): Falls X ≤ k, dann wird H0 akzeptiert (ii) Ablehnungsbereich (Rejektions-Region): Falls X > k, dann wird H0 verworfen. Nach Vorgabe dieser Entscheidungsregel kann über die übliche Standardisierung auf die Standard-Normalverteilung für die Stichprobenfunktion X bei Vorgabe der Fehlerwahrscheinlichkeit 1. Art α der kritische Wert k bestimmt werden: Sei für H0 definiert: z0:= µ - E(µ) var(µ) = (µ - µ0) σ n . Dann gilt z0 ~ N (0,1), und aus der Bedingung (Fehler 1. Art; Entscheidung im Ablehungsbereich): P(z0 > k*) = α ⇔ P(z0 ≤ k*) = 1 - α ⇔ Φ(k*) = 1 - α, kann der standardisierte kritische Wert k* aus der Standardnormalverteilungstabelle entnommen und anschließend wieder auf den gesuchten kritischen Wert k für die nichtnormalisierte Größe umgerechnet werden: (k-µ 0) σ n = k* ⇔ k= µ 0 + k* . σ n Die Entscheidung erfolgt jetzt nach der oben angeführten Entscheidungsregel: Verwerfe H0, wenn für die Realisierung x von X gilt: x > k. Die folgende Abbildung zeigt die Entscheidungsbereiche. Ist x links von k (die Testgröße (Teststatistik) ist kleiner als der kritische Wert) gilt die Hypothese H0 als akzeptabel, während für den Fall, daß x rechts von k ist ( x ist größer als k) die Hypothese H0 abzulehnen ist. Man beachte genau die Sprechweise: im Annahmebereich heißt es nicht: “die Hypothese H 0 gilt”, sondern nur, 6 “man kann sie nicht verwerfen”. Im Ablehnungsbereich hingegen ist die Aussage viel stärker: “die Hypothese H0 wird verworfen”. Aber das heißt nicht notwendig, daß sie wirklich falsch ist! 17.2.2 Bemerkung (Klassifikation des Tests): Der erörterte Test heißt einfach, weil beide Hypothesen nur durch jeweils genau einen Parameterwert repräsentiert werden. Empirisch ist es u.U. schwierig, die richtigen Hypothesen herauszufinden. In der Praxis treten sie oft durch streitige Behauptung zu Tage: der Verkäufer eines Produkts behauptet einen Wert und der Käufer einen anderen, z.B. die mittlere Lebendauer eines Reifens. 17.2.3 Beispiel 1. Der Ablehnungsfall Zur Verdeutlichung sei wieder die kleine Stichprobe aus Beispiel 16.1.7 von vier Beobachtungen betrachtet: (1, 2, 3, 1). Die Varianz der zugrundeliegenden normalverteilten Zufallsvariablen X sei bekannt: σ2 = 1. Zur Irrtumswahrscheinlichkeit 1. Art α = 0.1 soll H0: µ = µ0: = 1 gegen H1: µ = µ1: = 2 getestet werden. Mit µ = X , E(µ ) = µ, var( µ ) = X - µ0 σ2 n k-1 2 )= 1- α σ 1 erhält man: k = 1.641, und wegen x = 1.75 > 1.641 = k muß H0 verworfen werden. Der Fehler 2. Art β tritt dann mit folgender Wahrscheinlichkeit auf: X - µ1 1.641-2 P( n ≤ 2)= Φ(-0.718)= 0.2396. σ 1 P( n ≤ 7 N (1, σ 2 ) n N (2, µ 0=1 σ 2 ) n µ 1=2 k=1.641 2. Der Annahmefall Wählt man unter sonst gleichen Umständen die Irrtumswahrscheinlichkeit 1. Art α = 0.05, dann erhält man aus X - µ0 k-1 P( n ≤ 2) = 1-α σ 1 den kritischen Wert k = 1.8225, und wegen x = 1.75 < 1.8225 = k kann H0 nicht verworfen werden. Hier tritt der Fehler 2. Art β mit folgender Wahrscheinlichkeit auf: X - µ1 1.8225-2 P( n ≤ 2)= Φ(-0.357)= 0.3604. σ 1 N (1, σ 2 n ) N (2, µ 0=1 µ 1=2 k=1.8225 σ 2 n ) 8 17.2.4 Bemerkung (Zusammenhang der Fehlerwahrscheinlichkeiten) Offensichtlich - man siehe die Abbildung auf der Vorseite - wächst die Fehlerwahrscheinlichkeit 2. Art, wenn die Fehlerwahrscheinlichkeit 1. Art verringert wird und umgekehrt. Beide Fehler zugleich zu minimieren ist keine sinnvolle Fragestellung, d.h. die Verkleinerung des einen Fehlers wird durch eine Vergrößerung des anderen erkauft. 17.2.5 Bemerkung (Zusammenhang von Fehlern und Stichprobenlänge) Die einzige Möglichkeit, bei gegebener Fehlerwahrscheinlichkeit 1. Art α die Fehlerwahrscheinlichkeit 2. Art β zu beeinflussen (zu verkleinern), besteht darin, bei der Erhebung der Stichprobe einen größeren Aufwand zu treiben, d.h. den Stichprobenumfang zu erhöhen. 17.2.6 Beispiel (Fortsetzung) Hätte man etwa als Stichprobenrealisation die Beobachtungen (1,2,3,1,1,2,3,1) erhalten, dann wäre x = 1.75 wie bisher, aber der kritische Wert k zur Fehlerwahrscheinlichkeit 1. Art α = 0.05 wäre nun k= 1.5816. Folglich müßte jetzt die Nullhypothese verworfen werden und man erhielte als Fehlerwahrscheinlichkeit 2. Art β X - µ1 1.5816-2 P( n ≤ 8 ) = Φ(-1.1834) = 0.1183 1 σ 17.2.7 Bemerkung (gemischte, zusammengesetzte Hypothesen): Einfache Hypothesen, wie in Beispiel 17.1.7, sind nicht der Regelanwendungsfall, sondern die folgenden sog. gemischten oder zusammengesetzten Hypothesen. Statt zweier spezifischer Werte für µ0 und µ1 werden ganze Bereiche für die Parameter miteinander verglichen. D.h. etwa, daß einer Behauptung, ein Parameter übersteige eine bestimmte Grenze, die Behauptung gegenübergestellt wird, diese Grenze werde durch den Parameter unterschritten. Im Bereich des Umweltschutzes etwa geht es bei der Frage nach den Immissionsmengen bestimmter Schadstoffe nicht so sehr um die exakten Werte als vielmehr darum, ob gewisse Grenzwerte überschritten werden oder die immittierte Menge sich noch in einem Bereich bewegt, der bezüglich weiterreichender Folgen unbedenklich ist. Unter den Vorausetzungen des Beispiels 17.1.7 sei das Hypothesenpaar H0: µ ≤ µ0 gegen H1: µ > µ1 zu testen. (Auch hier sei µ0 ≤ µ1). Dabei verfährt man so, als ob bezüglich der Nullhypothese der im Sinne dieser Nullhypothese ungünstigste aller Fälle wahr wäre, d.h. man geht davon aus, daß µ=µ0 ist und führt den Test entsprechend den oben entwickelten Regeln durch. 9 2 N ( µ0 , σ ) Annahmebereich Ablehnungsbereich α µ0 kritischer Wert Bei der Bestimmung der Fehlerwahrscheinlichkeit 2. Art β verfährt man entsprechend: Man geht vom ungünstigsten Fall aus, d.h. unter allen unter der Alternativhypothese zulässigen Parameterwerten wählt man denjenigen, der die Fehlerwahrscheinlichkeit 2. Art maximiert. Bei der obigen Formulierung der Alternativhypothese, in der die Menge der zulässigen Parameterwerte offen ist, muß dann das folgende Supremum gebildet werden: sup {P(X < k)}. µ>µ1 Dieses Supremum erhält man, indem man den ungünstigsten Parameterwert, µ1, wählt. Für das umgekehrte Hypothesenpaar H0: µ ≥ µ0 H1: µ < µ1 folgt ein entsprechendes Rezept für die Bestimmung von kritischem Wert und Annahmeund Ablehnungsbereich (s.u. die Übersicht im Anhang). 10 2 N (µ 0 , σ ) Ablehnungsbereich α Annahmebereich kritischer Wert µ0 Eine besonders interessante Variante des Tests ist die Untersuchung des folgenden symmetrischen Parameterintervalls: 17.2.8 Beispiel (Zweiseitiger Mittelwert-Test bei bekannter Varianz) Für das Hypothesenpaar H0: µ = µ0 gegen H1: µ ≠ µ0, die Stichprobenfunktion X sowie die symmetrische Entscheidungsregel (i) Annahmebereich (Akzeptanz-Region): Falls |X–µ0|≤ k, dann wird H0 akzeptiert (ii) Ablehnungsbereich (Rejektions-Region): Falls |X–µ0|> k, dann wird H0 verworfen, stimmt der Mittelwerttest mit einem symmetrischen Konfidenzbereich für µ0 überein, sofern der Fehler 2. Art außerachtgelassen wird, wie es hier geschieht. Für den Fehler 1. Art gilt die Definition des Vertrauensintervalls (s.o. Definition 16.1.1) P[zu ≤ z ≤ zo ] = 1 - α, 0< α <1 mit dem einzigen Unterschied, daß in der Definition von z statt eines unbekannten µ (so in der Theorie des Konfidenzintervalls) die Größe µ0 der Nullhypothese einzusetzen ist: (µ - µ 0) n µ - E(µ) z= = . σ var(µ) Sofern z in das durch die Tafelwerte begrenzte Intervall fällt, ist die Hypothese zu akzeptieren. Diese Sicht der Dinge erklärt, weshalb das α des Signifikanzniveaus in der Theorie der Konfidenzbereiche auch als Irrtumswahrscheinlichkeit bezeichnet wurde (s.o. Beispiel 16.1.6). 11 Mit Ausnutzen der Symmetrie folgt das kritische Intervall, der Annahmebereich: P[-T ≤ z ≤ T] = 1 - α, 0< α <1, der zugehörige Tafelwert T aus der Normal(0,1)-Tabelle. Dieser Annahmebereich stimmt mit dem Konfidenzintervall aus Beispiel 16.1.6 überein. 17.2.9 Beispiel Mit der Stichprobenrealisation (1,2,3,1) wie in Beispiel 17.1.7 sollen zur Fehlerwahrscheinlichkeit 1. Art α = 0.05 die Hypothesen H0: µ = 1.5 gegen H1: µ ≠ 1.5 getestet werden. Die zugrundeliegende Zufallsvariable sei wieder normalverteilt mit bekannter Varianz σ2 = 1. Zu bestimmen sind jetzt die beiden (symmetrisch zu µ0=1.5 gelegenen) Werte (d.h. c) µ0 - c und µ0 + c derart, daß gilt: P(µ0 - c ≤ X ≤ µ0 + c) = 1-α. Hieraus erhält man: c α c Φ(n) = ⇔ n = -1.96 ⇔ c =.0.98. σ σ 2 Die Nullhypothese kann also nicht verworfen werden, da µ0 - c = 1.5-0.98 = 0.52 < 1.75 = x < 2.48 = 1.5+0.98 = µ0 + c. 2 N (µ 0 , σ ) Annahmebereich Ablehnungsbereich α/2 Ablehnungsbereich α/2 µ kritischer Wert 1 0 kritischer Wert 2 12 17.2.10 Bemerkung (Zweiseitiger Mittelwert-Test bei unbekannter Varianz) In gleicher Weise, wie das entsprechende Vertrauensintervall für den Fall unbekannter Varianz zur t-Verteilung der Stichprobenfunktion führte, sonst jedoch die Überlegungen unverändert ließ (s.o. Beispiel 16.1.10), so folgt für den symmetrischen Normal-MittelwertTest bei unbekannter Varianz σ2 das kritische Intervall, der Annahmebereich P[T u ≤ z ≤ T o ] = 1 - α,0< α <1, bzw. P[-T ≤ z ≤ T] = 1 - α, 0< α <1, T u, T o, T zugehörige Tafelwerte der t-Tabelle 17.2.11 Beispiel Mit der Stichprobenrealisation (1, 2, 3, 1) wie zuvor soll zur Fehlerwahrscheinlichkeit 1. Art α = 0.05 die Hypothese H0: µ = 1.5 gegen H1: µ ≠ 1.5 getestet werden. Die zugrundeliegende Zufallsvariable sei normalverteilt mit unbekannter Varianz; deshalb benutzen wir hier die korrigierte Stichprobenstreuung s* = 0.9574. Zu bestimmen sind jetzt die beiden (symmetrisch zu 0 gelegenen) Werte T u und T o, bzw. T derart, daß gilt: P[T u ≤ z ≤ T o ] = P[-T ≤ z ≤ T] = 1 - α. Aus der t-Verteilungstabelle mit n-1 = 3 Freiheitsgraden erhält man T u = -T =-3.18 und entsprechend der Symmetrie der t-Verteilung T o = T = 3.18 Die Nullhypothese kann also nicht verworfen werden, da -T = -3.18 < 0.52 < 3.18 = T . Dabei wird der Wert der Stichprobenfunktion wie folgt berechnet (s.o. Kapitel 16): (x - µ0) n 1.75 - 1.5 = ⋅ 4 = 0.52 s* 0.9574 17.2.11 Bemerkung Beim zweiseitigen Test über den Erwartungswert µ der Normalverteilung wird bei unbekannter Varianz ebenso die Teststatistik X - µ0 X - µ0 n-1 = n S S* verwendet. Diese Teststatistik ist mit n-1 Freiheitsgraden t-verteilt. Bei einseitigen Tests kommt dieselbe Statistik zur Anwendung. Deshalb kann das Verfahren aus Beispiel 17.2.3 entsprechend übertragen werden. 13 17.3 Ein Zweistichprobentest zum Vergleich zweier Mittelwerte bei bekannter Varianz Die Daten bestehen aus zwei unabhängigen Teilstichproben, eine der Länge n 1 und die andere der Länge n 2. Beides seien Zufallsstichproben aus Normalverteilungen mit jeweils bekannter Varianz σ 2i (i = 1, 2), d.h. (X11, X12, ..., X1n1 ) mit der Realisierung (x11, x12, ..., x1n1 ), 2 X1i ~ N (µ1,σ 1) (i = 1, 2, ...,n1) und (X21, X22, ..., X2n2 ) mit der Realisierung (x21, x22, ..., x2n2 ), 2 X2i ~ N (µ2, σ 2) (i = 1, 2, ..., n2). Für die beiden Stichprobenfunktionen gilt: σ 2i σ 2i µi =X i , E(µi)= µ i, var(µ i) = , µ ~N (µi, ), i=1,2. ni i ni Außerdem gilt wegen der Unabhängigkeit (s.o. Bemerkung 13.1.3) σ2 σ2 E(X1 - X2) = E(µ 1 - µ 2) = µ1 - µ2, var(X 1 - X2) = var(µ1 - µ2)= n 1 + n 2 1 2 und für eine Stichprobenfunktion Y:= X1 - X2 gilt damit: Y ~ N(µ1 - µ 2, σ21 σ22 + ). n1 n 2 Für die Mittelwertdifferenz δ:= µ1 - µ2 können daher folgende Hypothesenpaare einem üblichen Mittelwert-Test unterzogen werden: Unterfall 1 (einfacher Test auf Gleichheit): H0: δ = δ0 = 0 H1: δ = δ1 (δ1 ≠ δ0), Unterfall 2 (einfacher Test auf eine von Null verschiedene Differenz): H0: δ = δ0 ≠ 0 H1: δ = δ1 (δ1 ≠ δ0), Unterfall 3 (ein gemischter beidseitiger Test): H0: δ = δ0 H1: δ ≠ δ0, Unterfall 4 (ein gemischter einseitiger Test): H0: δ ≥ δ0 (oder δ ≤ δ0) H1: δ < δ0 (oder δ > δ0). 14 17.3.1 Beispiel Die Niederschlagsmenge im Monat Juli (in mm) betrug in Hamburg bzw. München Hamburg München 1975 120 137 1976 34 136 1977 72 152 1978 74 161 1979 84 67 1980 169 166 1981 72 181 1982 31 107 1983 5 35 1984 47 (Quelle: Statistische Jahrbücher 1976-1985) 104 Die Niederschlagsmenge im Monat Juli in Hamburg bzw. München sei normalverteilt mit den Mittelwerten µ0 bzw. µ1 und gemeinsamer Varianz σ2 = 2000. Damit läßt sich anhand der obigen Stichprobe H0: µ0 ≥ µ1 gegen H1: µ0 < µ1 mit der Fehlerwahrscheinlichkeit 1. Art von 0.10 ein Test gemäß Unterfall 4 formulieren: H0: δ ≥ 0 gegen H1: δ < 0, wobei δ = µ0 - µ1 gesetzt wurde. Aus den Daten errechnet man x = 70.8 undy = 124.6. X - Y - (µ0 - µ 1) Die Stichprobenfunktion Z:= σ 21 σ22 n1 + n 2 ist standardnormalverteilt, und man errechnet die Realisierung z = -2.69. Aus der Standard-Normalverteilungstabelle erhält man -1.282 und folglich muß H0 verworfen werden; d.h. es kann als statistisch gesichert angesehen werden, daß es im Juli in München mehr regnet als in Hamburg! (Vorsicht: Trotzdem kann es in Hamburg häufiger regnen!) Anmerkung zur Schreibweise Wenn nach Durchführen eines Tests eine Hypothese angenommen werden kann, wird diese Entscheidung (im Englischen decision) häufig in Kurzschreibweise wie folgt angegeben: d = H0 Entsprechend ist die Kurzschreibweise für die Ablehnung der Hypothese: d ≠ H0. 15 17.3.2 Bemerkung (Vergleich zweier Normal-Mittelwerte bei unbekannter, aber gleicher Varianz) So wie der Übergang vom Beispiel 17.2.8 zu Beispiel 17.2.10 im Test die Ersetzung der Normalverteilung durch die t-Verteilung brachte, so kann auch hier eine zweite Testserie für den Vergleich der Mittelwerte gemacht werden, wenn beide Varianzen unbekannt sind. Die Ergebnisse übertragen sich unmittelbar. Der Fall, daß die eine Varianz bekannt und die andere unbekannt ist, wird nicht erörtert. 17.3.3 Beispiel Sei nun die gleiche Problemstellung wie bei Beispiel 17.3.1 gegeben aber die Varianzen seien unbekannt (wenn auch noch immer gleich). Dann ist die Zufallsvariable X - Y - (µ0 - µ1) T:= n1 + n2 - 2 1 1 *2 + (n1 - 1)s*2 1 + (n2 -1)s 2 n 1 n2 für n1≥2 und n2≥2 t-verteilt mit n1+n2-2 Freiheitsgraden (s.o. 17.3) Folglich wird H0 abgelehnt, wenn die entsprechende Realisierung von T im offenen Intervall (- ∞ , tα;n1+n2-2) liegt. Für α = 0.1 findet man in der Tabelle (n1 + n2 - 2 = 10+10-2 = 18): t = -1.33. Die Stichprobenfunktion T hat die Realisierung -2.57. Folglich muß die Nullhypothese wieder verworfen werden. Eine Variante dieser beiden Aufgaben (17.3.1 und 17.3.3) ist die Situation, in der für den Zwei Stichproben-Mittelwert-t-Test nicht die Urdaten vorliegen, sondern bereits Zusammenfassungen: 16 17.3.4. Aufgabe (Zwei Stichproben-Mittelwert-t-Test bei unbekannter identischer Varianz) Die Höhe X bzw. Y eines Baumes der Sorte A bzw. B (eines bestimmten Alters) ist normalverteilt; X und Y sind unabhängig und haben gleiche Varianzen. Unabhängige Stichproben aus X bzw. Y ergaben folgende Resultate: 6 6 12 12 Σ X i = 90, Σ X 2i = 1500, Σ Yj = 120, Σ Yj2 = 1275 i=1 i=1 i=1 i=1 Testen Sie mit einer Fehlerwahrscheinlichkeit 1. Art α=0.01 folgende Hypothesen über die Erwartungswerte: a) H0: E(X)= E(Y) gegen H1: E(X)≠E(Y) b) H 0: E(X)≤ E(Y) gegen H 1: E(X)>E(Y) Lösung Sind die Verteilungen X ~ N(µx, σ2), Y ~ N(µy , σ2), dann ist die interessierende Größe die Mittelwertdifferenz µ:= µx - µy . Damit wird die Aufgabe reformuliert zu H0: µ=0, und für die Teilaufgaben gelten die Alternativhypothesen: (a) H1:µ≠0 und (b) H1:µ>0. Die Teststatistik T ist t-verteilt: T= X–Y · nXS2X+n YS 2Y S 2X = 250-225=25, n X+n Y–2 1 1 n X + nY ~ tnX+ nY-2 =t6+12-2 =t16 nX S 2X =150, nX =6,Y =10, S 2Y = 106.25-100=6.25, nY S 2Y =75, nY =12 1 1 1 1 1 15–10 4 40 nXS 2X+n YS 2Y = 225, nX + nY -2= 16, + = + = ,T=( )· = = 2.67 n X n Y 6 12 4 15 0.5 15 Mit diesen Vorbereitungen folgen die Antworten zu a und b: a) Der Test auf Gleichheit der Mittelwerte von X und Y d≠H0 ⇔ |T| > k (= links und rechts zum Nullhypothesenwert symmetrischer kritischer Wert) α = 0.01 ⇒ 0.01= 2 . t16(-k) ⇒ t16(k)= 0.995 ⇒ k= 2.92 (der kritische Wert rechts); X =15, T = 2.67≤ 2.92 (= der in der Stichprobe realisiert Wert ist innerhalb des Annahmebereiches) ⇒ d=H0 (die Nullhypothese der Gleichheit ist akzeptabel) b) Der Test des kleineren Erwartungswertes von X d≠H0 ⇔ T > k (= kritischer Wert oberhalb des Nullhypothesenwertes) α = 0.01 ⇒ 0.01 = 1 - tα, 16(-k) ⇔ t1 - α,16 (k) = 0.99 ⇒ k = 2.58, T= 2.67 > 2.58 ⇒ d≠H0 Beachten Sie, daß aus den Stichproben nur die beiden Momente X , Y bzw. S2 benutzt werden. 17 17.3.5. Aufgabe (Zwei Stichproben-Mittelwert-t-Test bei unbekannter identischer Varianz) Der Erfolg einer einwöchigen Abmagerungsdiät, die komplette Mahlzeiten garantiert und verspricht, daß kein Hungergefühl aufkommt, soll getestet werden. Aus Bequemlichkeitsgründen (man weiß nicht Besseres) nimmt man an, die Beobachtungen seien normalverteilt und die Varianzen der beiden Stichproben seien gleich. Bei 15 Testpersonen wurden die Gewichte vor und nach der Diät erhoben. Dabei ergaben sich folgende Gewichtsdaten in kg: Testperson 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 vorher Xv 64 81 79 69 70 80 69 68 75 75 76 83 69 85 77 nachher Xn 62 76 80 68 70 74 71 72 75 73 77 78 66 82 79 Testen Sie zum Niveau 0.05, ob eine signifikante Gewichtsverringerung eintritt. Lösung (Der Test der Gewichtsdifferenz X = Xv - Xn) Die Zufallsvariable ist X: Gewichtsveränderung (“vorher - nachher”) durch die Diät. Zu testen ist H0: E(X) = 0 gegenüber H1: E(X) > 0 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 xi 2 5 -1 1 0 6 -2 -4 0 2 -1 5 3 3 -2 Die Teststatistik T ist t-verteilt: T= Xv – Xn – 0 nvS 2v+n nS 2n · n v+n n–2 1 1 nv + n n ~ tnv+ nn - 2 = t15+15-2 = t28 17 = 1.13, s2 = 8.552 ⇒ s = 2.924 15 d≠H0 ⇔ T > k (= kritischer Wert oberhalb des Nullhypothesenwertes) α = 0.05 ⇒ t α,28 (k) = 0.05 ⇒ k = + 1.645, d.h. der Ablehungsbereich ist (+ 1.645, ∞). x = T= Xv – Xn – 0 nv+nn– 2 = x–0 s n = 1.133 2.924 15 = 1.501 1 1 + nv nn Da T = 1.501 < 1.645, kann H0 kann mit dieser Stichprobe nicht abgelehnt werden. nvS 2v+n nS 2n · 18 17.4 Die Theorie des p-Wertes (Einige Illustrationen des ein- und beidseitigen Tests) Wenn ohnehin auf die Auswertung des Fehlers 2. Art verzichtet wird, dann bietet sich folgende Theorie an, die sich unter dem Namen “p-Wert” eingebürgert hat. Die Bedeutung des p-Werts wird hier für das Hypothesenpaar H0: µ = µ0 gegenüber H1: µ ≠ µ0 bzw. H 1: µ = µ1 und µ0<µ1 vorgeführt. Die benutzten Statistiken sind das übliche arithmetische Mittel: µ = X sowie die mittleren quadratischen Abweichungen S2 1 = n n Σ (xi i=1 X)2 2 = σ bzw. S* 2 1 = n–1 n Σ (xi -X) 2 = σ 2 . i=1 Mit der Null-Hypothese für den Mittelwert H0: µ = µ0 gegenüber einer noch anzugebenden Alternativ-Hypothese H 1 gilt für die Verteilung der Teststatistik je nach Kenntnis der Varianz, daß sie entweder normalverteilt oder t-verteilt mit n-1 Freiheitsgraden ist, d.h. entweder (µ - µ 0) n µ - E(µ) z0:= = , z0 ~ N (0,1), σ var(µ) oder µ - µ0 X - µ0 X - µ0 µ - µ0 µ - E(µ) z0:= = n = n = n–1 = n–1 , z0 ~ tn-1. S* S σ σ var(µ) Aus der Stichprobe folgt ein z0, das eingesetzt in die jeweilige Tabelle (entweder Normalverteilung oder t-Verteilung) einen numerischen Wert p1 bzw. p2 liefert, den sog. p-Wert für die Null-Hypothese: q1 = P[z≤z0] = Φ(z0) bzw. q 2 = P[z≤z0]= F(z0) und 1 - q1 = p1 = P[z>z0] = 1 - Φ(z0) bzw.1 - q 2 = p2 = P[z>z0] = 1 -F(z0) Der Vergleich mit dem zugehörigen einseitigen Test zeigt, daß der p-Wert die Rolle ähnlich einer Irrtumwahrscheinlichkeit spielt, die hier jedoch nicht vorgegeben ist, was ohnehin recht willkürlich und oft nur historisch bedingt ist, sondern folgt aus den Beobachtungen. Die Grundidee ist dabei stets die gleiche, die die folgende Definition beschreibt: Definition (p-Wert) Der p-Wert ist die Wahrscheinlichkeit, einen Schätzwert zu erhalten, der noch weiter vom wahren Wert der Hypothese entfernt ist (falls die Hypothese wahr wäre) als der, der tatsächlich durch die Beobachtungen (die spezielle Stichprobe, die spezielle Schätzung) geliefert wird. 19 D.h. der p-Wert mißt, wie glaubwürdig die Ablehnung der Hypothese ist; m.a.W. ein großer p-Wert (Nähe zum Nullhypothesenwert) läßt die Hypothese gelten. Damit wird aber nicht bewiesen, daß die Hypothese zutreffend ist. Ein kleiner p-Wert spricht gegen die Hypothese. Damit ist die Interpretation etwa, wie folgende Tabelle festhält: p-Wert nach Tafel Größenordnung empirische Evidenz gegen die Null-Hypothese > 0.12 (12%) kaum, gegen die Null-Hypothese ist kaum etwas zu sagen ≈ 0.10 (10%) schwach, die Null-Hypothese mag zutreffen ≈ 0.05 (5%) fraglich, die Null-Hypothese ist sicher nicht selbstverständlich ≈ 0.01 (1%) stark, empirischer Wert weit ab, die Null-Hypothese muß strittig sein < 0.001 (1%o) sehr stark, empirischer Wert zu weit ab, Null-Hypothese nicht tragbar Numerisches Beispiel: Sei eine Stichprobe X = {1, 2, 3, 2} zum Testen des Hypothesenpaares H0: µ = 1.5 gegen H 1: µ ≠ 1.5 beobachtet. X - µ0 2 -1.5 Die zugehörige t n-1-Testgröße ist z0 = n = 4 ≈ 1.2247. Die t-Tafel liefert S* 2/3 einen p-Wert von etwa 0.16 bzw., da es ein zweiseitiger Test ist, 0.32 (durch Interpolation der Tafelwerte für t3 p= 0.20 in 0.978 für t3 p= 0.15 in 1.250). M.a.W. die Hypothese ist so gut wie unangreifbar. Für das Hypothesenpaar H0: µ = 0.5 gegen H 1: µ = 2.5 X - µ0 2 -0.5 liefert die gleiche Stichprobe mit z0 = n = 4 ≈ 3.674 S* 2/3 (durch Interpolation der Tafelwerte für t3 p= 0.025 in 3.176 für t3 p= 0.010 in 4.538) einen p-Wert von etwa 0.02. M.a.W. die Hypothese ist wenig überzeugend, da sie so weit vom Nullhypothesenwert entfernt ist. Derartig große Abweichungen sind kaum begründet. 20 Offensichtlich ist eine solche Interpretation schillernd. Entsprechende p-Wert-Überlegungen können für die übrigen Tests gemacht werden. Dazu wird die folgende bildliche Darstellung, die auf Wild und Seber (p.380) zurückgeht, geboten: Alternativ Hypothese Evidenz gegen die 0-Hypothese H0: µ = µ0 für H1: µ > µ 0 µ >> µ 0 Dichte für den Schätzwert t-Dichte bzw. Normaldichte einseitig p-Wert H1: µ < µ 0 µ << µ 0 . einseitig H1: µ ≠ µ0 µ0 zu weit ab von µ0 in beiden Richtungen Die Schraffur bezeichnet den p-Wert. p-Wert 21 17.5 Stichprobentests für die Varianz Nach der Einführung von Tests über Erwartungswerte wird im folgenden noch ein Test über Varianzen vorgestellt. 17.5.1 Der Test für die Varianz der Normal-Stichprobe Entsprechend der Konstruktion eines Konfidenzintervalls für σ2 wird für einen zugehörigen Test, d.h. für ein Hypothesenpaar Unterfall 1 (ein einfacher Test): H0: σ 2 = σ20 σ21 ≠ σ20 (σ 21 > σ20 oder σ 21 < σ20) 2 2 H1: σ = σ 1 Unterfall 2 (ein beidseitiger Test): H0: σ2 = σ 20 H1: σ2 ≠ σ 20 Unterfall 3 (ein einseitiger Test): H0: σ2 = σ 20 H1: σ2 ≥ σ 20 Unterfall 4 (ein einseitiger Test): H0: σ2 = σ 20 H1: σ2 ≤ σ 20 als Stichprobenfunktion auf die beiden Schätzer für σ2 zurückgegriffen: n (x - µ)2 n (x - µ) 2 σ2 = Σ i n und σ 2 = Σ i n-1 . i=1 i=1 Die Stichprobenfunktion (in vier äquivalenten Schreibweisen, wie in der Theorie des Konfidenzintervalls erläutert) für σ2 ist: n Σ (xi - X)2 z:= i=1 σ2 = n⋅S2 σ2 = n⋅σ 2 σ2 = (n -1)⋅σ2 σ2 undz ~ χ2n-1. Damit kann in Abhängigkeit von der Irrtumswahrscheinlichkeit 1. Art der entsprechende Verwerfungsbereich für die jeweilige Nullhypothese bestimmt werden. Für den 2. Unterfall (dieser wird behandelt, da er besonders einfach in Analogie zum Konfidenzbereich behandelbar ist, vergl. oben Beispiel 16.1.14, bei dem in gleicher Weise von der Parallelität der formalen Entwicklung Gebrauch gemacht ist) folgt nach Entnahme der zugehörigen Tafelwerte aus der χ 2-Verteilung-Tabelle ein beidseitiges Intervall: P[T u ≤ z ≤ T o ] = 1 - α, 0< α <1 bzw. mit Tu⋅ σ 20 n⋅S 2 n⋅σ 2 Tu ≤ ⇔ Tu ≤ ⇔ ≤σ 2 2 2 n σ σ 0 0 der durch folgende Ungleichungen beschriebene Annahmebereich: Tο σ20 n⋅S 2 n⋅σ 2 2 ≤ Tο ⇔ ≤ Tο ⇔ σ ≤ n σ2 σ2 0 0 22 (1) P[û( σ 20 ) 2 ≤σ ≤ ô( σ 20 )] = 1 - α, 0< α <1, Tu⋅σ 20 2 û( σ 0 ):= , n To⋅σ20 2 o( σ 0 ):= n D.h. der Fehler 2. Art wird der Einfachheit halber im Test vernachlässigt. Für die alternative Schreibweise mit σ 2 folgt der Annahmebereich: Tu⋅σ 20 To⋅σ20 2 2 2 2 2 (2) P[u(σ 0) ≤ σ ≤ o(σ 0)] = 1 - α, 0< α <1, u( σ 0 ):= , o( σ 0 ):= . n-1 n-1 1 α1 0.5 Annahmebereich α2 1 - α = 1 - (α1 + α2) 0 Ablehnungsbereich 1 5 10 15 Ablehnungsbereich 2 Zur Frage des kürzesten Intervalls sei auf die Ausführungen im Kapitel 16 hingewiesen. Für die Unterfälle 1, 3 und 4 folgen entsprechend die einseitigen Annahmebereiche, in denen die Tafelwerte T jeweils einen α-Bereich überdecken, während im beidseitigen Intervall die Wahrscheinlichkeitssumme oberhalb von T o und unterhalb von T u den Bereich α ausmachen. Unterfall 1: 2 (1)' P[σ 2 ≤ ô( σ 20)] = 1 - α, 0< α <1, ô(σ 20) = T o σ0 n 2 (2)' P[ σ 2 ≤ õ( σ 20)] = 1 - α, 0< α <1, õ(σ 20) = T o σ0 n-1 23 Unterfall 3: 2 (1)" P[ σ ≤ ô( σ 20)] = 1 - α, 0< α <1, ô(σ 20 ) = (2)" P[ σ 2 ≤ õ( σ 20)] = 1 - α, 0< α <1, õ(σ 20 ) = To σ20 n To σ20 n-1 1 0.5 1-α Annahmebereich 0 5 α 10 15 Ablehnungsbereich 24 Unterfall 4: (1)’’’ P[û(σ 20) (2)’’’ P[u(σ 20 ) 2 ≤ σ ] = 1 - α, 0< α <1, 2 ≤ σ ] = 1 - α, 0< α û(σ 20) = <1, u(σ 20 ) To ⋅σ 20 n = To ⋅σ 20 n-1 1 0.5 α 1-α Annahmebereich 0 Ablehnungsbereich 5 10 15 17.5.2 Varianz-Test Zur Illustration sei das kleine obige Beispiel der Beobachtungen (1, 2, 3, 1) fortgesetzt. Es soll getestet werden H0: σ2 = 4 gegen H 1: σ2 ≠ 4 . Mit σ 2 = 11/16 und mit n-1 = 4-1 = 3 Freiheitsgraden folgen für α = 0.05 und "symmetrischer" Zuordnung der "Schwänze" der Verteilung û(σ 20) = 0.22 und û(σ 20) = 9.35 und damit P[0.22 ≤ σ 2 ≤ 9.35] = 0.95. Deshalb kann H0 nicht verworfen werden. 17.6 Bemerkung (Tests auf Grundlage des Zentralen Grenzwertsatzes) Mit Zutreffen der Voraussetzungen des Zentralen Grenzwertsatzes können wie in der Theorie der Konfidenzintervalle auch hier Tests entsprechend den Beispielen 16.1.15 und 16.1.16 für Zufallsstichproben aus beliebig verteilten Zufallsvariablen konstruiert werden. Die Überlegungen des Kapitels 16 übertragen sich entsprechend. 25 17.7 Tests für mehr als einen Parameter Besteht die Aufgabe darin, daß zugleich mehr als ein Parameter getestet werden soll (z.B. Mittelwert und Varianz der Normalverteilung), so kann man die oben entwickelten Tests nicht nacheinander durchführen. Auch hier gilt, was bereits für die Konfidenzintervalle gesagt worden ist (siehe oben Kapitel 16, Abschnitt 7). 17.8 Aufgaben Aufgabe 17.8.1 (Ein Test für die Poisson- und die Exponentialverteilung) a) Eine poissonverteilte Zufallsstichprobe der Länge n=5 habe die Realisierung (3, 1, 0, 2, 0). Bestimmen Sie mit der Irrtumswahrscheinlichkeit α einen Test für das Hypothesenpaar H0: µ = 2 gegen H 1: µ = 1. Bestimmen Sie den zugehörigen Fehler 2. Art. (Hinweis: Benutzen Sie eine Tabelle der Poissonverteilung für ein bestimmtes α, dann verallgemeinern Sie Ihre Vorgehensweise für ein beliebiges α. b) Diskutieren Sie die Anwendbarkeit des Zentralen Grenzwertsatzes für die Aufgabe (Eine Antwort: Ja oder Nein ist ohne Begründung und ohne Beschreibung der Vorgehensweise nicht hinreichend!) c) Wie bekannt, sind die Wartezeiten zwischen Poissonereignissen, also auch die Zeiten zwischen dem jeweiligen Auftreten der Realisierungen aus Aufgabe a), exponentialverteilt. Damit läßt sich die Aufgabe fortsetzen. Aber auch ohne eine solche Fortsetzung läßt sich von vorneherein annehmen, eine zu untersuchende Stichprobe sei exponentialverteilt. Für diese Stichprobe sei (u.U. mit Hilfe einer geeigneten Approximation) ein Test für den Vergleich der Hypothesen λ 0= 0.5 und λ 1 = 1.0 entwickelt. Nehmen Sie an, Sie kennen das Stichprobenmittel X . Lösung a) X = 6/5 = 1.2; der Ablehnungsbereich ist links offen, d.h. X ≤ k, m.a.W. X muß "groß" genug für eine Annahme sein (kK der kritische Wert, links von dem abgelehnt werden muß). Die direkte Auswertung von P[Ablehnung] = P[X ≤ k] = k Σ (pj|P(µ), µ = 2) = α j=0 liefert (nach Vorgabe von α) den Wert k; dies gelingt hier nur approximativ: k 0 1 2 3 4 5 6 α 0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 Für z.B. α = 0.05 ist k = 0. Einsetzen von k gibt dann den Fehler 2. Art β: ∞ Σ P[X > k] = (pj|P(µ), µ = 1) j=k+1 k 0 1 2 3 4 β 0.6321 0.2642 0.0803 0.0190 0.0037 Damit ist der zugehörige Fehler 2. Art 0.6321. Mit X = 1.2 kann die Hypothese akzeptiert werden. 26 Eine alternative Lösung zu a) berücksichtigt die Ganzzahligkeit der Poisson-Variablen, die 5 mit X verlorengeht: Falls X~ P(λ), dann Y = Σ X i, Y~ P(5λ), d.h. mit der Null-Hypothese i=1 kann die P(10)-Verteilungstafel benutzt werden: k 0 1 2 3 4 5 6 α 0.0000 0.0005 0.0028 0.0103 0.0293 0.0671 0.1301 Für α = 0.05 ist (wie oben) dann k = 4, und Einsetzen von k in die Alternativhypothese gibt dann den Fehler 2. Art β: ∞ P[Y > k] = Σ (pj|P(µ), µ = 5) j=k+1 k 0 1 2 3 4 5 β 0.9933 0.9596 0.8753 0.7350 0.5595 0.3840 Damit ist der zugehörige Fehler 2. Art 0.5595. Mit Y = 6 kann die Hypothese akzeptiert werden. Im Vergleich zur Lösung mit X ist der Fehler 2. Art numerisch kleiner. In b) fällt die Antwort aber anders aus. b) Die Anwendung des Zentralen Grenzwertsatzes heißt, daß der Test mit der Normal(k- µ) ⋅ n verteilungsapproximation P(X ≤ k) ≈ Φ( ) durchgeführt wird. Dafür ist eine µ hinreichend große Anzahl von Beobachtungen nötig. Falls das zutrifft, erhält man die Entscheidungsregel: d ≠ H0 ⇔ X ≤ kritischer Wert k ⇒ Entscheidung für H1. (k- µ0) ⋅ n (k- µ0) ⋅ n (k- 2) ⋅ n ) = α, z.B. α = 0.05 folgen = - 1.645 = µ0 µ0 2 Mit Einsetzen von n läßt sich dieses nach k auflösen, T µ0 k = µ0 + , T der Tafelwert; z.B. für n=49 folgt dann k = - 1.645. 2 / 7 + 2 ≈ 1.668. n Mit X = 1.2 kann die Hypothese nur abgelehnt werden. Für Φ( Für den zugehörigen Fehler 2. Art. folgt dann (K - µ1) ⋅ n β ≈ 1 - Φ( ) = 1 - Φ((1.668 - 1). 7) =1 - Φ(4.676) ≈ 0. µ1 Die Frage, ob X auch Poisson-verteilt ist, ist unbeachtlich, da nur die Momente σ2 µ E(X )= µ und var(X ) = = benutzt werden. n n NB.: Die Poisson-Verteilung ist die Verteilung, in der Mittelwert und Varianz übereinstimmen: E(X) = µ = var(X). 27 Aufgabe 17.8.2 (Ein Test für die Binomialverteilung) Unser Wetter wird von vielen Faktoren wie z.B. Temperatur, Luftbewegungen, Luftdruck, Sonneneinstrahlung, Staubanteile in der Luft beeinflußt. Brauchbare länger-fristige Modelle sind (leider) noch nicht bekannt. Die längerfristige Wettervorhersage scheint (daher) ein Zufallsexperiment zu sein. Die Meteorologen behaupten, daß der Einsatz von Beobachtungssatelliten ihre Vorhersagen gegenüber der früheren Trefferquote von 0.65 verbessert habe, so daß nunmehr mit einer Wahrscheinlichkeit von 0.75 eine Prognose korrekt sei. a) Es sei p die Wahrscheinlichkeit für eine richtige Vorhersage. Eine Stichprobe der Länge 20 ergab 15 richtige Vorhersagen. Testen Sie damit H0: p = 0.65 gegen H 1: p = 0.75 mit α = 0.05. Wie groß ist der Fehler 2. Art? b) Angenommen, bei einer Stichprobe der Länge 40 seien 30 richtige Vorhersagen beobachtet worden. Bestimmen Sie nun den Fehler 2. Art näherungsweise mit Hilfe des zentralen Grenzwertsatzes. c) Was ändert sich am Test, wenn die einfachen Hypothesen durch die folgenden zusammengesetzten Hypothesen ersetzt werden? * * H 0: p ≤ 0.65 gegen H 1: p ≥ 0.75 d) Warum darf man in Teil a) den zentralen Grenzwertsatz nicht anwenden? Lösung a) Unter H0, d.h. für die Hypothesen H0: p = 0.65 gegen H 1: p = 0.75, ist 20 ∑ Xi ~ B(20, 0.65), d.h. jeweils X ~ B(1, p) mit p0 = 0.65 und p1 = 0.75. i=1 n Der Test dafür lautet: d ≠ H0 ⇔ ∑ Xi >k, wobei k die kritische Grenze ist. i=1 α = 0.05 ≈ PH0(H0 wird abgelehnt) =PH0( 20 Σ X i >k) ⇔ k = 16 (laut Tabelle). Die Werte für n=1 n Pp=0.65( ∑ X i > k) werden entsprechend dem Komplement [Y~B(20,0.65)~B(20,0.35)] aus der i=1 Verteilungstabelle für p = 0.35 abgelesen, und zwar gemäß p = 0.65 0 1 2 3 … 18 19 20 p = 0.35 20 19 18 17 … 2 1 0 k 15(~ 4) 16(~ 3) 17(~ 2) 18(~ 1) 19(~ 0) α 0.1182 0.0444 0.0121 0.0021 0.0 02 Als Test erhalten wir damit die Entscheidungsregel: n 20 i=1 i=1 d ≠ H0 ⇔ ∑ Xi >16 . Da für die vorliegenden Beobachtungen Y= ∑ Xi = 15 ist, gilt H0. Der Fehler 2. Art wird entsprechend bestimmt: 28 p = 0.75 0 1 2 3 … 18 19 20 p = 0.25 20 19 18 17 … 2 1 0 K 15(~ 4) 16(~ 3) 17(~ 2) 18(~ 1) 19(~ 0) α 0.4148 0.2253 0.0913 0.0243 0.032 PH (Σ X i ≤ K ) = 1 -0.2252= 0.7748 gemäß Tabelle, und damit ist der Fehler der 2. Art, also 1 i die Entscheidung für H0, falls H1 richtig ist, das Komplement: 20 PH (H0 wird angenommen) = P5( ∑ X> 16) 1 i=1 |p=0.75 = 0.2252 Die genaue Berechnung macht von der speziellen Tabellierung Gebrauch: 20 n 1 - P( ∑ Xi >k) i=1 k Σ p=0.75 = P( Σ X i ≤ k)| H 1 = 0.7748 | i=1 n–k–1 (pj|B(n,p))= j=0 Σ j=0 16 (p j|B(n, 1–p)) = Σ j=0 3 (pj|B(20, 0.75)) = Σ (pj|B(20, 0.25)) =0.2252 j=0 b) Eine Anwendung des zentralen Grenzwertsatzes und der Normal-Approximation X - p0 PH0 n ≤ z0 = 0.95 ⇒ z0 = 1.645 p 0 (1 - p0) X - p0 0.65 . 0.35 ⇒ n ≤ 1.645 ⇔ X ≤ 1.645 . + 0.65 = 0.7741 p 0 (1 - p 0) 40 Da n= 40 und Σ Xi = 30 folgt X = 0.75 ≤ 0.7741 und damit d = H0. i Der Fehler 2. Art folgt: PH ( ∑ X i< k ) = PH X<0.7741 1 1 X -p 1 0.7741- 0.75 PH n< 40 = Φ(0.352) =0.6368 1 p1 (1- p1) 0.75 . 0.25 c) Die Fehlergrößen 1. und 2. Art sind nun folgendermaßen definiert: α H * = max {Pp(d ≠ H0): p unter H0}, Fehler 1. Art, β H * = max {Pp(d ≠ H0): p unter H1}, Fehler 2. Art. Allerdings kann man zeigen α H * = α H bzw. β H* = β H . An der Entscheidungsregel ändert sich nichts. d) Eine Anwendung des ZGWS entfällt, weil der Stichprobenumfang zu klein ist. Anmerkung: Die Aufgabe läßt sich leicht ändern: Man wähle in b) andere Werte, z.B. statt 40 und 30 z.B. 60 und 45. 29 Aufgabe 17.8.3 (Ein Einstichproben-Mittelwerttest und ein Varianztest bei unbekannter Varianz) In industriellen Großanlagen eines bestimmten Typs werden im sicherheitsrelevanten Bereich Haltebolzen benötigt, die einem hohen Verschleiß ausgesetzt sind. Da die Überprüfung dieser Bolzen sehr aufwendig ist, werden vorsorglich mehr eingebaut als eigentlich erforderlich wären. Um die Anzahl der einzubauenden Bolzen abschätzen zu können, interessiert man sich für deren mittlere Lebensdauer unter realistischen Belastungen. Eine entsprechende Stichprobe ergab folgende Lebensdauern (in vollendeten Monaten): 38 41 37 36 42 40 35 40 43 38 Die Lebensdauer dieser Bolzen kann als normalverteilt mit Erwartungswert µ und Varianz σ2 angenommen werden. a) Testen Sie die zur Fehlerwahrscheinlichkeit 1. Art α = 0.1 die Hypothese H0: µ ≥ 40 gegen H1: µ < 40 b) Testen Sie zur Fehlerwahrscheinlichkeit 1. Art α = 0.05 die Hypothese H0: σ2 ≤ 6 gegen H1: σ2 > 6. Lösung a) n= 10, x = 39, s2 = 6.2, s*2 = 6.8 x - µ0 Entscheidungsregel: d ≠ H0 ⇔ n < tα;n-1 (ein einseitiger Test, links offen) s* x - µ0 39 - 40 n = 10 = - 1.2048, t0.1;9 = -1.383 ∴ d = H0 s* 2.6247 b) Entscheidungsregel: d ≠ H0 ⇔ ⇔ s *2(n-1) σ 20 = s *2(n-1) σ 20 2 > χ1– α; n – 1 (ein einseitiger Test, rechts offen) 2 6.8 . 9 ≈ 10.2 < 16.9 = χ 0.95; 9 ∴ d = H0. 6 30 Aufgabe 17.8.4 (Ein Zweistichproben-Mittelwerttest bei unbekannter Varianz) Die voneinander unabhängigen Benzinverbräuche X und Y zweier Wagen sollen an-hand unabhängiger Stichproben der Länge nX = nY = 10 verglichen werden. Dabei wer-den die Verbräuche jeweils als normalverteilt mit unbekanntem Erwartungswert µX bzw. µY und unbekannten, aber gleichen Varianzen σX2 = σ2 = σY2 betrachtet. Die Stichprobenergebnisse lauten: Σ x i 68 Σ (x – x)2 6 i i Σ yi i i 70 Σ (yi – y)2 4 i Zum Signifikanzniveau α = 0.05 soll folgende Hypothese getestet werden: H0: "µX ist mindestens so groß wie µY" gegen die Alternative H1: "nicht H0" Lösung : Die Hypothese ist formal: H 0: "µX ≥ µY" gegen die Alternative H1: "µX < µY". Da σ2 unbekannt ist, folgt ein t-Test für den Mittelwert (Test auf Gleichheit, s.o.) . Aus den Daten ergeben sich mit n = nX = nY = 10, x = 6.8, y = 7.0, σ 2X = 6/9 = 2/3 ≈ 0.67, σ X = 0.67 ≈ 0.82; σ 2Y = 4/9 ≈ 0.44, σ Y = 2/3 ≈ 0.67 M.a.W. die anzuwendende Statistik ist die Größe z:= X - Y . Sie wird standardisiert und für z soll gelten: H0: z ≥ 0 gegenüber H1: z < 0. Die Testregel ist dann: H0 ist zu verwerfen, wenn die Testgröße T, X - Y - (µX - µ Y) T= nX + nY - 2 , die für n ≥ 2 und n ≥ 2 X Y 1 + 1 (n - 1)s * 2 +(n - 1)s* 2 X X Y Y n X nY t-verteilt mit nX + nY - 2 = 18 Freiheitsgraden ist, im folgenden kritischen offenen Intervall liegt: (-∞, tα;nX+nY-2), d.h. unterhalb tα;nX+nY-2 = t0.05;18 = -1.73 Die entsprechende Realisierung von T ist: 6.8 - 7.0 T= 18 = - 0.6; damit kann H0 nicht abgelehnt werden. 2 4 0.2 9 ⋅ + 9 ⋅ 3 9