Skript zum Modul 141 - Statistik 11. Parametrische Signifikanztests In den vorangegangenen Sitzungen wurde davon ausgegangen, dass einzelne empirische Verteilungen durch entsprechende theoretische Verteilungen wiedergegeben werden können. Auf dieser Grundlage wurden Wahrscheinlichkeiten berechnet. Die Frage ob die empirischen Verteilungen tatsächlich den theoretischen entsprechen oder die aus der Stichprobe berechneten Parameter die der Grundgesamtheit wiedergeben, blieb dabei unbeantwortet. Zur Klärung dieser Frage stellt die schließende Statistik die Signifikanztests zur Verfügung mit denen geprüft werden kann ob: • Der Mittelwert oder die Varianz einer Stichprobe gleich, ungleich, größer oder kleiner dem Mittelwert oder der Varianz der Grundgesamtheit ist (Parametertests) • Die empirische Verteilung durch eine theoretische Verteilung erklärt werden kann (Anpassungstests) Zur Beantwortung entsprechender Fragestellungen werden in der Statistik Signifikanztests durchgeführt die nach folgendem Schema aufgebaut sind: 1. Spezifikation einer Null- und einer Alternativhypothese 2. Festlegung eines Signifikanzniveaus 3. Auswahl einer Testfunktion 4. Berechnung des Testwertes und Entscheidung Für jeden dieser vier Schritte existieren klare Vorgaben, die von der Fragestellung, die jeweils untersucht wird, abhängen. Unterschieden werden: • Parametrische Tests – die sich mit der Untersuchung von einzelnen Parametern (µ,σ,σ² ...) befassen, und • Nichtparametrische Tests – die sich mit Aussagen über die Verteilung (z.B. Normalverteilung) befassen Beispiel für einen parametrischen Test: Von der Abfüllanlage einer Brauerei werden Flaschen gefüllt, wobei die Füllmenge X pro Flasche gewissen Schwankungen unterliegt. In den Herstellerangaben der Abfüllanlage wurde angegeben, dass die durchschnittliche Füllmenge µ0 = 500 cm³, mit einer Standardabweichung von σ = 1.5, betrage. Anhand einer Stichprobe vom Umfang n = 25 wurde die durchschnittliche Füllmenge von 499.28 cm³ (= µ1) empirisch ermittelt. Anhand dieser beiden Werte können nun unterschiedliche Fragestellungen untersucht werden, abhängig von der Interessenlage der Personen, die die Untersuchung durchführen. a) eine Eichkommission ist an der generellen Abweichung vom Sollwert interessiert. b) ein Verbraucherschutzverband ist daran interessiert ob der Istwert deutlich kleiner als der Sollwert ist. c) der Brauereibesitzer ist daran interessiert ob im Mittel zuviel abgefüllt wird 11-1 Skript zum Modul 141 - Statistik 11.1. Formulierung der Hypothesen Beim Aufbau eines Signifikanztests werden immer zwei Hypothesen formuliert: Die Nullhypothese die mit H0 bezeichnet wird und immer die Fragestellung beschreibt, die untersucht werden soll. Im allgemeinen Formuliert die Nullhypothese die Gleichheit. Für das Beispiel wäre H0: „Ist der Mittelwert der Stichprobe gleich dem Mittelwert, den der Hersteller angegeben hat?“ Also: H0: µ0 = µ1 Eine Alternativhypothese, die mit HA oder H1 bezeichnet wird und sich als Gegenhypothese aus der Fragestellung und H0 ergibt. Für das Beispiel können folgende HA formuliert werden: a) HA: µ0 ≠µ1 b) HA: µ1 < µ0 c) HA: µ1 > µ0 Bei der Bestimmung des Mittelwertes µ1 aus einer Stichprobe ist zu erwarten, dass nicht genau der tatsächliche Wert der Grundgesamtheit getroffen wird. Ist die Stichprobe repräsentativ kann aber davon ausgegangen werden das µ1 nicht allzusehr vom tatsächlichen Wert µ0 abweicht. Für die formulierten Hypothesen bedeutet dies: H0 (µ1 = µ0) wird abgelehnt und damit die Alternativhypothese angenommen, wenn je nach Fragestellung gilt: a) HA: µ0 ≠µ1, wenn |µ1 - µ0| sehr groß ist b) HA: µ1 < µ0, wenn µ1 sehr viel kleiner als µ0 ist c) HA: µ1 > µ0, wenn µ1 sehr viel größer als µ0 ist. Zur Präzisierung der Entscheidungen ob die Abweichungen „sehr groß“ oder „sehr viel größer bzw. kleiner“ sind, wird das Signifikanzniveau festgelegt. 11.2. Signifikanzniveau Das Signifikanzniveau bezeichnet die akzeptierte Irrtumswahrscheinlichkeit mit der die Nullhypothese abgelehnt wird obwohl sie richtig ist. Oder anders ausgedrückt bezeichnet das Signifikanzniveau die Güte des Tests. Die Festlegung eines geeigneten Signifikanzniveaus ist problemorientiert, entsprechend der Fragestellung vorzunehmen. Alternativ kann das Signifikanzniveau auch als Risiko betrachtet werden, wenn es beispielsweise darum geht die Wahrscheinlichkeit für Schäden zu beziffern. In der Wasserwirtschaft werden Deiche oft so konstruiert, dass das Risiko eines Überflutens zu 95% ausgeschlossen ist. Für die Sicherheit von Kernkraftwerken ist ein niedrigeres Risiko wünschenswert, so dass Unfälle mit nahezu 100%iger Sicherheit ausgeschlossen werden können. Für das Beispiel sei ein Signifikanzniveau α = 0.01 vorgegeben. 11-2 Skript zum Modul 141 - Statistik Das bedeutet, dass die Wahrscheinlichkeit für die Entscheidung die Nullhypothese abzulehnen obwohl sie richtig ist bei 1% liegt. Anders ausgedrückt bedeutet dies: Die Wahrscheinlichkeit für eine richtige Entscheidung liegt bei 99%. Sehr oft muss α nicht frei bestimmt werden sondern ist durch die Vorgaben der Interessensgruppe oder durch die Aufgabenstellung a priori festgelegt. Denkbar wäre beispielsweise, dass die Eichkommission höhere Anforderungen an die Güte des Testes stellt als die Verbraucherschutzorganisationen. 11.3. Auswahl der Testfunktion Die Auswahl einer geeigneten Testfunktion ist von verschiedenen Kriterien abhängig: a) Von der Art des Tests: parametrisch oder nichtparametrisch b) Vom Parameter, der durch die Nullhypothese untersucht werden soll; µ, σ, σ² c) Von der Verteilung der Grundgesamtheit aus der die Stichprobe ermittelt wurde. Die Testfunktion beschreibt nicht mehr die Verteilung der Grundgesamtheit sondern die Verteilung der Testgröße (im Falle des Beispieles die Verteilung des Mittelwerts). 11.3.1. Gaußtest Beim Beispiel handelte es sich um: a) Einen parametrischen Test (Mittelwert wird untersucht) b) Untersucht wird H0: µ1 = µ0 c) Die Grundgesamtheit war normalverteilt mit µ = 500 und σ = 1.5 Aus diesen Kriterien folgt, dass die Testgröße N(0,1) also standardnormalverteilt ist. D.h. würden sehr viele Stichproben aus der Grundgesamtheit gezogen und die Verteilung der Mittelwerte betrachtet, wäre diese auch normalverteilt. 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -5 -4 -3 -2 -1 0 1 11-3 2 3 4 5 Skript zum Modul 141 - Statistik Berechnung des Testwertes Die Testgröße v berechnet sich im Falle der Normalverteilung nach: v= X − µ0 σ n Die Testgröße wird nun gegen die Werte der Standardnormalverteilung an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. Bei einem Signifikanzniveau von α = 0.01 bedeutet dies für die Hypothesen: H0: µ0 = µ1 wird verworfen wenn im Fall: a) HA: µ1 ≠ µ0 v außerhalb eines zentralen 99% Intervalls liegt b) HA: µ1 < µ0 v kleiner als der 1% Wert ist. c) HA: µ1 > µ0 v größer als der 99% Wert ist. 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -5 -4 -3 -2 -1 0 1 2 3 4 5 Es müssen also folgende Sachverhalte für die drei unterschiedlichen Fragestellungen bestimmt werden: H0: µ1 = µ0 ist zu verwerfen a) gegen HA: µ1 ≠ µ0 falls v < -X1-α/2 oder v > X1- α/2 c) gegen HA: µ1 < µ0 falls v < -X1- α d) gegen HA: µ1 > µ0 falls v > X1- α 11-4 Skript zum Modul 141 - Statistik Beispiel: Als Stichprobenmittel der n=25 Flaschen wurde eine Füllmenge von 499.28 cm³ ermittelt. Damit berechnet sich v nach: v= X − µ0 σ n= 499.28 − 500 25 = −2.4 1.5 Die Werte der Standardnormalverteilung für: -X(1- α /2), X(1- α /2), -X(1- α) und X(1- α) werden wie in der letzten Sitzung dargestellt aus Tabellen ermittelt. Es ergibt sich: Für a.) -X(1- α /2) = -X(0.995) = -2.575 und X(1- α /2) = X(0.995) = 2.575 Für b.) -X(1- α) = -X(0.99) = -2.327 Für c.) X(1- α) = X(0.99) = 2.327 Entscheidung Mit den berechneten Parametern lassen sich nun die Hypothesen prüfen: H0: µ1 = µ0 ist zu verwerfen a) gegen HA: µ1 ≠ µ0 falls -2.4 < -2.575 oder 2.4 > 2.575 b) gegen HA: µ1 < µ0 falls -2.4 < -2.372 c) gegen HA: µ1 > µ0 falls 2.4 > 2.372 Die Ergebnisse lassen sich folgendermaßen interpretieren: a) Die Eichkommission kommt zum Schluss, dass die mittlere Füllmenge der Stichprobe dem Sollwert entspricht. b) Die Verbraucherschutzkommission kommt zum Schluss, dass die mittlere Füllmenge nicht dem Sollwert entspricht. c) Der Brauereibesitzer kommt zum Schluss, die mittlere Füllmenge entspricht dem Sollwert. 11.3.2. Der t-Test Der t-Test kommt zur Anwendung, wenn ein Mittelwerttest mit einer Stichprobe (mit n ≤ 30) aus einer Grundgesamtheit, bei der σ oder σ² nicht bekannt ist, durchgeführt werden soll. Der Testfunktionswert v ergibt sich dabei nach: 11-5 Skript zum Modul 141 - Statistik v= X − µ0 n s Anstelle der unbekannten Standardabweichung σ der Grundgesamtheit wird hier die Standardabweichung der Stichprobe s benutzt. Sie berechnet sich nach: s= 1 n ( xi − x ) 2 ∑ n − 1 i=1 Die t-Verteilung ist der Standardnormalverteilung sehr ähnlich. Ihre Funktionswerte sind von der Anzahl der Freiheitsgrade abhängig. Mit zunehmenden FG nähert sie sich immer mehr der SNV an. Die FG berechnen sich aus dem Stichprobenumfang n nach: FG = n − 1 0.400 FG = 3 FG = 7 FG = 25 0.350 0.300 0.250 0.200 0.150 0.100 0.050 0.000 -4 -3 -2 -1 0 1 2 3 4 Beispiel für die Anwendung des t-Tests: Zehn Hohlkarabiner einer bestimmten Marke wurden der Produktion entnommen und dem Zerreißversuch unterzogen, d.h. die Belastung des Karabiners wurde solange erhöht, bis er brach. Der Bruch geschah bei folgenden Werten xi: 2100, 2130, 2150, 2170, 2210, 2070, 2230, 2150, 2230, 2200 [kp] Aus versicherungstechnischen Gründen soll nun überprüft werden, ob der vom Hersteller angegebene Sollwert von 2000 kp mit 99%iger Sicherheit gewährleistet ist. Daraus ergeben sich als Hypothesen: H0: µ1 = µ0 Der Mittelwert der Stichprobe entspricht dem Sollwert HA: µ1 < µ0 Der Mittelwert der Stichprobe ist signifikant kleiner 11-6 Skript zum Modul 141 - Statistik Aus der 99%igen Sicherheit ergibt sich das Signifikanzniveau: α = 0.01 Aus dem Stichprobenumfang ergeben sich die Freiheitsgrade: FG = n – 1 = 9 Zunächst müssen nun der Mittelwert und die Standardabweichung der Stichprobe bestimmt werden: 1 10 µ1 = ∑ X i = 2164 n i =1 1 n ( xi − x ) 2 = 2960 = 54.4 ∑ n − 1 i=1 s= Und dann der Testwert berechnet werden: v= X − µ0 2164 − 2000 n= 10 = 9.53 s 54.4 Der Wert der t-Verteilung für FG = 9 und α = 0.01 wird der Tabelle entnommen und beträgt: 2.8214 Entscheidung: Nullhypothese wird beibehalten da: t(9;0.01) < v (2.8214 < 9.53) Der Hersteller geht also davon aus, dass seine Karabiner dem Sollwert entsprechen. 11.3.4. Der χ²-Test für Varianzen Der χ²-Test kommt zur Anwendung, wenn ein Varianzentest mit einer Stichprobe aus einer normalverteilten Grundgesamtheit durchgeführt werden soll. Der Testfunktionswert v ergibt sich dabei nach: v = (n − 1) s2 σ 02 = 1 σ 02 n ⋅ ∑ ( xi − x) 2 i =1 Wobei s² wiederum die Varianz der Stichprobe, σ² dagegen die Varianz der Grundgesamtheit darstellt. Die χ²-Verteilung ist eine linksteile/rechtschiefe Verteilung die einen ausschließlich positiven Wertebereich besitzt. Ihre Funktionswerte sind wie bei der t-Verteilung von der Anzahl der Freiheitsgrade abhängig. Die FG berechnen sich aus dem Stichprobenumfang n nach: FG = n − 1 11-7 Skript zum Modul 141 - Statistik Beispiel für die Anwendung des χ²-Tests: Zehn Hohlkarabiner einer bestimmten Marke wurden der Produktion entnommen und dem Zerreißversuch unterzogen, d.h. die Belastung des Karabiners wurde solange erhöht, bis er brach. Der Bruch geschah bei folgenden Werten xi: 2100, 2130, 2150, 2170, 2210, 2070, 2230, 2150, 2230, 2200 [kp] Der Hersteller möchte wissen, ob die vom Maschinenhersteller angegebene Streuung von σ0 = 40 im Durchschnitt bei 95% der Produktion erreicht wird oder nicht. Hypothesen: H0: σ²1 = σ²0 HA: σ²1 ≠ σ²0 Signifikanzniveau: α = 0.05 Freiheitsgrade: FG = 10 – 1 = 9 Mittelwert und Standardabweichung der Stichprobe: 1 10 µ1 = ∑ X i = 2164 n i =1 1 n ( xi − x ) 2 = 2960 = 54.4 ∑ n − 1 i=1 s= Testgröße v: v = (n − 1) s2 σ 2 0 = 1 σ 2 0 n ⋅ ∑ ( xi − x ) 2 = i =1 11-8 1 26640 = 16.65 1600 Skript zum Modul 141 - Statistik Die Werte der χ²-Verteilung für FG=9 an den Signifikanzstellen werden der Tabelle entnommen und betragen: χ²(0.025; 9) = 2.7 und χ²(0.975; 9) = 19.023 Entscheidung: Auch in diesem Fall kann die Nullhypothese beibehalten werden da: χ 2 (0.025;9) < v < χ 2 (0.975;9) 2.70 < 16.65 < 19.023 Zur Veranschaulichung können die Werte auch retransformiert werden mit: v ⋅ σ 02 s² = (n − 1) Dadurch ergibt sich das Werteintervall: 22 < 40 < 58 Das bedeutet die Standardabweichung der Stichprobe liegt im Intervall. Damit weicht sie nicht signifikant von der Sollgröße ab. 11-9 Skript zum Modul 141 - Statistik 11.4. Übungsaufgaben Aufgabe 1: Die mittlere Länge von 18 Lorbeerblätter ist 151 mm und die Standardabweichung ist 15 mm. Wenn sie die Länge als normalverteilt annehmen, dann bestimmen Sie, wie viele Lorbeerblätter: a) Welche Verteilungsfunktion legen Sie für die Stichprobe zugrunde. b) zwischen 115 und 145 mm lang sind c) über 183 mm lang sind. Aufgabe 2: Ein Test der Bruchstärken von 6 Seilen, die von einer Firma hergestellt wurden, ergab eine mittlere Bruchstärke von 7750 N bei einer Standardabweichung von 145 N, während der Hersteller eine mittlere Bruchstärke von 8000 N behauptete. Können Sie bei einer Irrtumswahrscheinlichkeit von a) 0.05 b) 0.01 Diese Behauptung des Herstellers unterstützen? Aufgabe 3: Eine einfache Stichprobe vom Umfang 16 aus einer NV(µ, 2.5) verteilten Grundgesamtheit ergab den Mittelwert 998.2875. Testen Sie jeweils zum Signifikanzniveau α = 0.05 mit Hilfe des Gausstest: a) H0 : µ = 1000 gegen H1 µ ≠ 1000 b) H0 : µ ≥ 1000 gegen H1 µ < 1000 c) H0 : µ ≤ 1000 gegen H1 µ > 1000 Aufgabe 4: Die mittlere Lebensdauer einer Stichprobe von 100 Glühbirnen, die von einer Firma hergestellt wurden, wurden mit 1570 Stunden bei einer Standardabweichung von 120 Stunden berechnet. Der Hersteller vermutet, dass die mittlere Lebensdauer seiner Glühbirnen betrage 1600 Stunden betrage. Nun möchte er mit 95 %iger Sicherheit feststellen, ob diese Vermutung richtig ist. a) Stellen Sie einen geeigneten Test auf, indem Sie die Hypothesen formulieren, einen geeigneten Test wählen, dann den Test durchführen und schließlich Ihr Ergebnis in einem kurzen Text darstellen. 11-10 Skript zum Modul 141 - Statistik b) Die Verbraucherschutzministerin möchte wissen, wie hoch die Lebensdauer von mindestens 80% der Produktion ist. Bestimmen Sie diesen Wert für Frau Kühnast. Aufgabe 5: Bei wie vielen von 800 Familien mit 5 Kindern würden Sie: a) 3 Jungen b) 5 Mädchen c) 2 oder 3 Jungen erwarten? Wobei die Wahrscheinlichkeit für die Geburt eines Jungens gleich der für die Geburt eines Mädchens sei. Aufgabe 6: In folgender Abbildung ist die χ²-Quadrat Verteilung mit 5 Freiheitsgraden dargestellt. Bestimmen Sie die kritischen Werte von χ2, für die a) b) c) d) die Fläche rechts von Grenze 2 = 0.05 ist die Fläche links von Grenze 1 = 0.10 ist die Fläche rechts von Grenze 2 = 0.01 ist die Flächen rechts von Grenze 2 und links von Grenze 2 gemeinsam = 0.05 ist (Hinweis zur Frage d): es gibt viele kritische Werte, für die die gesamte schraffierte Fläche gleich 0.05 ist. Nehmen Sie an, dass die beiden Flächen die gleiche Größe Grenze 1 Grenze 2 Aufgabe 7: Die Standardabweichung der Körpergrößen von 16 Schülern, die zufällig in einer Schule von 1000 Schülern gewählt wurden, war 2.40 cm. Bestimmen Sie die a.) 95% b.) 99% Konfidenzgrenzen für die Standardabweichung aller Schüler dieser Schule. Aufgabe 8 In der Vergangenheit waren Mittelwert und Standardabweichung der Schneehöhe in Sibirien 40 cm bzw. 2.5 cm. Eine Zufallsstichprobe von 20 Messwerten im Jahr 2002 ergab eine Standardabweichung von 3.2 cm. Prüfen Sie, bei einer Irrtumswahrscheinlichkeit von 11-11 Skript zum Modul 141 - Statistik a.) 0.05 b.) 0.01 ob die scheinbare Erhöhung der Streuung signifikant ist? 11.5. Musterlösung zu den Übungsaufgaben Aufgabe 1: Die mittlere Länge von 18 Lorbeerblätter ist 151 mm und die Standardabweichung ist 15 mm. Wenn sie die Länge als normalverteilt annehmen, dann bestimmen Sie, wie viele Lorbeerblätter: a) Welche Verteilungsfunktion legen Sie für die Stichprobe zugrunde. Lösung: Das nur 18 Elemente in der Stichprobe vorliegen muss anstelle der Normalverteilung die t-Verteilung angewendet werden. b) zwischen 115 und 145 mm lang sind Die Vorgehensweise ist analog zur Vorgehensweise bei der Normalverteilung, mit dem Unterschied, dass die t-Verteilung über ihre Freiheitsgrade definiert ist. Diese ergeben sich aus dem Stichprobenumfang nach FG = n – 1. Also 17 Freiheitsgrade. Nun müssen die realen Werte in t-Verteilungswerte transformiert werden, nach: ( X − µ) ⋅ n σ (115 − 151) v(115) = ⋅ 18 = −10.18 15 (145 − 151) v(145) = ⋅ 18 = −1.697 15 v= Für diese Werte können nun die tabellierten t-Verteilungswerte (FG 17) in der Tabelle in der Formelsammlung nachgesehen werden. Ein Problem dabei stellt der Wert von -10.18 bzw. +10.18 dar, da er nicht tabelliert ist. Dies liegt daran, dass dieser Wert sehr weit außen in der t-Verteilung liegt und daher sehr klein bzw. sehr groß ist. In solch einem Fall kann der Wert mit 0 angenommen werden. Wir lesen also aus der Tabelle tV(-10.18) = 0 und tV(-1.697) = (1 - 0.94) = 0.06. Somit können wir folgern, dass 6% der Blätter eine Länge von 115 – 145 mm besitzen. Also maximal 1 Blatt. c) über 183 mm lang sind. Lösung: Der Funktionswert der t-Verteilung ist v(183) = +9.05. Auch dieser Wert ist nicht tabelliert. Daraus lässt sich folgern, dass die Wahrscheinlichkeit ein Blatt von einer Länge 183 mm in der Stichprobe vorzufinden, verschwindend gering ist. Die Berechnung mit Excel ergibt eine Wahrscheinlichkeit von 3.27 * 10-8 11-12 Skript zum Modul 141 - Statistik Aufgabe 2: Ein Test der Bruchstärken von 6 Seilen, die von einer Firma hergestellt wurden, ergab eine mittlere Bruchstärke von 7750 N bei einer Standardabweichung von 145 N, während der Hersteller eine mittlere Bruchstärke von 8000 N behauptete. Können Sie bei einer Irrtumswahrscheinlichkeit von a) 0.05 b) 0.01 Diese Behauptung des Herstellers unterstützen? Lösung: Hier handelt es sich um eine klassische Testaufgabe. Gegeben ist: µ0 = 8000; σ = 145; µ1 = 7750; n = 6 sowie die beiden verschiedenen Irrtumswahrscheinlichkeiten α1 = 0.05 und α2 = 0.01 Gefragt ist: Sind die Mittelwerte gleich, was bedeutet die Abweichung ist allein auf die Stichprobenauswahl zurückzuführen. Oder ist der Mittelwert der Stichprobe (µ1) signifikant kleiner als der den der Hersteller angab (µ0) also systematisch. Daraus ergeben sich die Hypothesen: H0: µ1 = µ0 H1: µ1 < µ0 Durchzuführen ist also ein einseitiger Test der Mittelwerte (=Gausstest): Berechnung des Testwertes nach: v= ( X − µ) (7750 − 8000) n= 6 = −4.223 σ 145 Bestimmung der Funktionswerte an den Signifikanzstellen. Vorsicht, da der Stichprobenumfang nur 6 Seile beträgt muss die t-Verteilung mit n-1 Freiheitsgraden gewählt werden! Für das Signifikanzniveau α1 = 0.05 bei 5 FG entnehmen wir den Wert: -2.01 Für das Signifikanzniveau α2 = 0.01 bei 5 FG entnehmen wir den Wert: -3.36 Wir können diese Werte nun mit dem Testwert vergleichen: a) Ist -4.223 kleiner als -2.01 ? b) Ist -4.223 kleiner als -3.36 ? In beiden Fällen ist dies Wahr. Daraus folgt, dass die Alternativhypothese H1 richtig ist und die Nullhypothese H0 zu verwerfen ist. Dies bedeutet der Mittelwert der aus der Stichprobe ermittelt wurde weicht beide Male signifikant von der Herstellerangabe ab. Die Seile sind also weniger belastbar als der Hersteller angibt. Anschaulicher lassen sich die Werte vergleichen, wenn Sie zunächst retransformiert werden nach: 11-13 Skript zum Modul 141 - Statistik X= v ⋅σ + µ n X 1 = −2.01 ⋅ 145 + 8000 = 7881 6 X 2 = −3.36 ⋅ 145 + 8000 = 7801 6 Die Ergebnisse zeigen dass der Mittelwert der Stichprobe (7750) beide Male deutlich kleiner ist als die Testwerte. Aufgabe 3: Eine einfache Stichprobe vom Umfang 16 aus einer NV(µ, 2.5) verteilten Grundgesamtheit ergab den Mittelwert 998.2875. Testen Sie jeweils zum Signifikanznievau α = 0.05 mit Hilfe des Gausstest: a) H0 : µ = 1000 gegen H1 µ ≠ 1000 b) H0 : µ ≥ 1000 gegen H1 µ < 1000 c) H0 : µ ≤ 1000 gegen H1 µ > 1000 Lösung: Gegeben n = 16 (also t-verteilte Testgröße); µ = 998.2875; σ = 2.5; α = 0.05 Berechnen der Testgröße v: v = ( X − µ) (998.2875 − 1000) n= 16 = −2.74 σ 2.5 Für a) Zweiseitiger Test da Ungleichheit gefragt: Hierfür werden die Werte der t-Verteilung an den Stellen 0.025 und 0.975 bei 15 Freiheitsgraden benötigt und werden aus der Tabelle bestimmt nach: t(0.025, 15) = -2.1315 und t(0.975, 15) = 2.1315 Nun wird geprüft ob der Testwert im Intervall liegt: -2.1315 ?< -2.74 ?< 2.1315 Wir stellen fest, er liegt außerhalb. Das bedeutet er ist signifikant unterschiedlich, damit wird H1 angenommen und H0 verworfen. Für b) Einseitiger Test da Kleiner Beziehung in H1 gefragt: Wert der t-Verteilung an der Stelle 0.05: t(0.05, 15) = -1.7531 Wir prüfen mit der Alternativhypothese ob der Testwert kleiner als der Wert der T-Funktion: 2.74 ?< -1.7531. Wir stellen fest, dies ist wahr. Deshalb nehmen wir die Alternativhypothese an und verwerfen die Nullhypothese. µ ist signifikant kleiner als 1000 und nicht signifikant größer. 11-14 Skript zum Modul 141 - Statistik Für c) Einseitiger Test da Größer Beziehung in H1 gefragt: Wert der t-Verteilung an der Stelle 0.95: t(0.95, 15) = 1.7531 Wir prüfen mit der Alternativhypothese ob der Testwert kleiner als der Wert der T-Funktion: -2.74 ?> 1.7531. Wir stellen fest, dies ist falsch. Deshalb verwerfen wir die Alternativhypothese und nehmen die Nullhypothese an. µ ist nicht signifikant größer als 1000 sondern signifikant kleiner. Aufgabe 4: Die mittlere Lebensdauer einer Stichprobe von 100 Glühbirnen, die von einer Firma hergestellt wurden, wurden mit 1570 Stunden bei einer Standardabweichung von 120 Stunden berechnet. Der Hersteller vermutet, dass die mittlere Lebensdauer seiner Glühbirnen 1600 Stunden betrage. Nun möchte er mit 95 %iger Sicherheit feststellen, ob diese Vermutung richtig ist. a) Stellen Sie einen geeigneten Test auf, indem Sie die Hypothesen formulieren, einen geeigneten Test wählen, dann den Test durchführen und schließlich Ihr Ergebnis in einem kurzen Text darstellen. Lösung: Gegeben n = 100; µ0 = 1600, σ = 120; µ1 = 1570; α = 0.05 Der Hersteller fragt sich ob der berechnete Mittelwert signifikant von seiner Vermutung abweicht. Daraus ergeben sich die Hypothesen: H0 : µ0 = µ1 H1 : µ0 ≠ µ1 Aus den Hypothesen ergibt sich ein zweiseitiger Test, mit der Testgröße: v= ( X − µ) (1570 − 1600) n= 100 = −2.5 σ 120 Da die Mittelwerte bei ausreichend großer Stichprobe ( >30) normalverteilt sind wird der Testwert mit der SNV an den Stellen (0.025) und (0.975), nämlich dem 95% Intervall um den Wert verglichen. SNV(0.025) = -1.96 und SNV(0.975) = 1.96 Nun prüfen wir ob der Wert im Intervall liegt und stellen fest, er liegt außerhalb. Deshalb nehmen wir die Alternativhypothese an und verwerfen die Nullhypothese. Die Mittelwerte sind also signifikant unterschiedlich. Der Hersteller liegt also mit seiner Annahme falsch. b) Die Verbraucherschutzministerin möchte wissen, wie hoch die Lebensdauer von mindestens 80% der Produktion ist. Bestimmen Sie diesen Wert für Frau Kühnast. Lösung: Hier ist einfach eine Intervallschätzung gefragt. KEIN TEST!! Hierfür überführen wir die gegebene Normalverteilung in eine SNV, bzw. überführen den Wert der SNV an der Stelle 0.8 SNV(0.8) = 0.845 in die Normalverteilung nach: X = Z ⋅ σ + µ = 0.845 ⋅ 120 + 1570 = 1671 11-15 Skript zum Modul 141 - Statistik Wir können Frau Kühnast also mitteilen, dass die Lebensdauer von 80% der Produktion zwischen 0 und 1671 Stunden liegt. Aufgabe 5: Bei wie vielen von 800 Familien mit 5 Kindern würden Sie: a) 3 Jungen b) 5 Mädchen c) 2 oder 3 Jungen erwarten? Wobei die Wahrscheinlichkeit für die Geburt eines Jungens gleich der für die Geburt eines Mädchens sei. Lösung: Gesucht sind Erwartungswerte einer Binominalverteilung mit unterschiedlichen Wahrscheinlichkeiten p die zunächst ausgerechnet werden müssen. Gegeben ist also zunächst eine BNV(0.5, 5) Die Wahrscheinlichkeit für berechnet sich damit für a) ⎛5⎞ f (3) = ⎜ ⎟ 0.53 ⋅ 0.52 = 10 ⋅ 0.125 ⋅ 0.25 = 0.3125 ⎝ 3⎠ b) ⎛5⎞ f (0) = ⎜ ⎟ 0.50 ⋅ 0.55 = 1 ⋅ 1 ⋅ 0.03125 = 0.03125 ⎝0⎠ c) f (2) + f (3) = 0.3125 + 0.3125 = 0.625 Daraus ergeben sich nun die zu erwartenden Werte: a) n * f(3) = 800 * 0.3125 = 250 Es können also bei 250 Familien 3 Jungen erwartet werden. b) n * f(0) = 800 * 0.03125 = 25 Es können also bei 25 Familien 5 Mädchen erwartet werden. c) n * (f(2) + f(3)) = 800 * 0.625 = 500 Es können also bei 500 Familien 2 oder 3 Jungen erwartet werden. 11-16 Skript zum Modul 141 - Statistik Aufgabe 6 Das Schaubild der Chi-Quadrat Verteilung mit 5 Freiheitsgraden ist in der Abbildung dargestellt. Bestimmen Sie die kritischen Werte von χ2, für die a.) die Fläche rechts von Grenze 2 = 0.05 ist b.) die Fläche links von Grenze 1 = 0.10 ist c.) die Fläche rechts von Grenze 2 = 0.01 ist d.) die Flächen rechts von Grenze 2 und links von Grenze 2 gemeinsam = 0.05 ist (Hinweis zur Frage d): es gibt viele kritische Werte, für die die gesamte schraffierte Fläche gleich 0.05 ist. Nehmen Sie an, dass die beiden Flächen die gleiche Größe haben). Grenze 1 Grenze 2 Lösung: Die Gesamtfläche unter der Verteilung beträgt 1. a) Wenn die Fläche rechts von G2 0.05 sein soll ergibt sich die linke Seite als 1-0.05 also 0.95. Dieser Wert kann aus der Tabelle abgelesen werden bei 5 FG und ergibt χ²(0.95;5) = 11.070. b) χ²(0.1;5) = 0.554 c) wie a) χ²(0.99;5) = 15.086 d) χ²(0.025;5) = 0.831 und χ²(0.975;5) = 12.832 Aufgabe 7 Die Standardabweichung der Körpergrößen von 16 Schülern, die zufällig in einer Schule von 1000 Schülern gewählt wurden, war 2.40 cm. Bestimmen Sie die a.) 95% b.) 99% Konfidenzgrenzen für die Standardabweichung aller Schüler dieser Schule. Lösung: Paramtertest auf Varianz Aus s = 2.4 folgt s² = 5.76. Die Umstellung der Testfunktion nach s2 v = ( n − 1) 2 σ0 s 2 ( n − 1) σ = v 2 0 11-17 0² ergibt: Skript zum Modul 141 - Statistik für a) ergeben sich folgende χ²-Werte χ²(0.975;15) = 27.488 und χ²(0.025;15) = 6.262. Einsetzen in die Gleichung ergibt: 5.76 (15 ) = 13.79 6.262 5.76 (15 ) 2 σ0.975 = = 3.143 27.488 2 σ0.025 = Durch Wurzelziehen erhalten wir wieder die Standardabweichungen. Wir können also mit 95%iger Sicherheit sagen, dass die Standardabweichung der Grundgesamtheit zwischen 1.77 cm und 3.71 cm liegt. für b) ergeben sich folgende χ²-Werte χ²(0.995;15) = 32.801 und χ²(0.005;15) = 4.601. Einsetzen in die Gleichung ergibt: 5.76 (15 ) = 18.78 4.601 5.76 (15 ) 2 σ0.995 = = 2.634 32.801 2 σ0.005 = Durch Wurzelziehen erhalten wir wieder die Standardabweichungen. Wir können also mit 99%iger Sicherheit sagen, dass die Standardabweichung der Grundgesamtheit zwischen 1.63 cm und 4.33 cm liegt. Aufgabe 8 In der Vergangenheit waren Mittelwert und Standardabweichung der Schneehöhe in Sibirien 40 cm bzw. 2.5 cm. Eine Zufallsstichprobe von 20 Messwerten im Jahr 2002 ergab eine Standardabweichung von 3.2 cm. Prüfen Sie, bei einer Irrtumswahrscheinlichkeit von a.) 0.05 b.) 0.01 ob die scheinbare Erhöhung der Streuung signifikant ist? Lösung: Geg: µ0 = 40; σ = 2.5; n = 20; s = 3.2 Æ σ² = 6.25 und s² = 10.24 Gefr: Ist s² signifikant größer als σ² 1. Hypothesen: H0: s² > σ² gegen H1: s² < σ² s2 10.24 2. Berechnung des Testwertes: v = ( n − 1) 2 = 19 ⋅ = 31.13 σ0 6.25 3. Bestimmung des Funktionswertes an der Konfidenzstelle: a. für 0.05 χ²(0.95; 19) = 30.144 11-18 Skript zum Modul 141 - Statistik b. für 0.01 χ²(0.99; 19) = 36.191 4. Entscheidung: a. v ?<? χ²(0.95; 19) Æ 31.13 ?<? 30.144 Æ Nein ist nicht richtig. Æ Wir verwerfen also H1 und bestätigen H0. Das heißt wir gehen mit 95%iger Sicherheit davon aus, dass die Erhöhung signifikant ist. b. v ?<? χ²(0.99; 19) Æ 31.13 ?<? 36.191 Æ Ja ist richtig. Æ Wir bestätigen also H1 und verwerfen H0. Das heißt mit 99%iger Sicherheit können wir die Erhöhung nicht als signifikant bezeichnen. 11-19