Jens Helling Herausgeber: Klaus Schilling Kerncurriculum Berufliche Gymnasien Niedersachsen Stochastik Darstellen ⫺ Auswerten ⫺ Beurteilen 2. Auflage Bestellnummer 03330 Haben Sie Anregungen oder Kritikpunkte zu diesem Produkt? Dann senden Sie eine E-Mail an 03330⫺[email protected] Autoren und Verlag freuen sich auf Ihre Rückmeldung. www.bildungsverlag1.de Bildungsverlag EINS GmbH Hansestraße 115, 51149 Köln ISBN 978-3-427-03330-1 © Copyright 2013: Bildungsverlag EINS GmbH, Köln Das Werk und seine Teile sind urheberrechtlich geschützt. Jede Nutzung in anderen als den gesetzlich zugelassenen Fällen bedarf der vorherigen schriftlichen Einwilligung des Verlages. Hinweis zu § 52a UrhG: Weder das Werk noch seine Teile dürfen ohne eine solche Einwilligung eingescannt und in ein Netzwerk eingestellt werden. Dies gilt auch für Intranets von Schulen und sonstigen Bildungseinrichtungen. Vorwort Vorwort Bei der Erstellung dieses Schulbuches wurde besonderer Wert auf eine für Schülerinnen und Schüler anschauliche und verständliche Darstellung der mathematischen Inhalte und Verfahren gelegt, damit sie mit diesem Buch eigenständig im Unterricht und zu Hause arbeiten können. Berechnen Sie für die Menge A ⫽ {7,9; 10,8; 12,9; 15,9} das arithmetische Mitn tel x, wenn für das arithmetische Mittel die Formel x ⫽ 兺 1 xi gilt. n i⫽1 „Das brauche ich in meinem Leben nie wieder!“ So ganz Unrecht haben Schülerinnen und Schüler mit dieser Aussage nicht. Diese Art von Aufgaben ist wenig motivierend und vermittelt ihnen ein falsches Bild von Mathematik. Mathematik ist mehr als Formeln und Definitionen. Mathematik ist eine Wissenschaft, die uns täglich begleitet und die wir täglich anwenden. Wenn wir mit unseren Freunden ins Lokal um die Ecke gehen und wir dort vier Gerichte für 7,90 EUR, 10,80 EUR, 12,90 EUR und 15,90 EUR bestellen, kann man mit der Formel berechnen, wie viel jeder von uns durchschnittlich bezahlt hat. Der vorliegende Band ist einer von vier Bänden aus der Reihe „Kerncurriculum Mathematik“ und ist exakt auf das Kerncurriculum 2010 in Niedersachsen abgestimmt. Er dient dem Erwerb der für die Qualifikationsphase beschriebenen Kompetenzen und strebt dabei sowohl die Förderung der inhaltsbezogenen als auch der prozessbezogenen Kompetenzen der Schülerinnen und Schüler an. Eine zu allen vier Bänden passende Formelsammlung ist ebenfalls erhältlich. Eine große Zahl von Lernsituationen mit ausführlich dargestellten, algebraischen und rechnergestützten Lösungen ermöglicht den Schülerinnen und Schülern einen selbstständigen Erwerb der inhaltsbezogenen Kompetenzen. Sämtliche Situationen mit Lösungsweg sind mit dem nebenstehenden „Puzzle-Symbol“ und einem blauen Balken gekennzeichnet. Wichtige Informationen für die Lernsituationen und die dazugehörigen Lösungen sind mit einem „Informationssymbol“ und einem gelben Balken markiert. Der Großteil der Aufgaben kann auch mit einem grafikfähigen Taschenrechner (GTR) oder einem Computer-Algebra-System (CAS) gelöst werden. Ein „Taschenrechnersymbol“ kennzeichnet Lösungen, die mit einem TI-84 Plus berechnet wurden. Darüber hinaus befindet sich im Anhang eine Übersicht mit allen wichtigen Funktionen des Taschenrechners für das Sachgebiet Stochastik. GTR Übungsaufgaben werden durch das „Verzahnungssymbol“ und einen grünen Balken gekennzeichnet. 3 Vorwort Am Ende zahlreicher Kapitel finden sich weitere offene Lernsituationen zum jeweils vorangegangenen Kapitel. Diese eignen sich besonders zur Verknüpfung der inhalts- und prozessbezogenen Kompetenzen und können auch zum Einstieg in ein neues Themengebiet verwendet werden. Ich hoffe, mit diesem Buch vielen Lesern die Angst vor dem Zufall zu nehmen, und wünsche allen Schülerinnen und Schülern sowie allen Kolleginnen und Kollegen viel Erfolg im Unterricht. Jens Helling 4 Inhaltsverzeichnis Inhaltsverzeichnis Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Mathematische Zeichen und Symbole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1 Daten darstellen und auswerten . . . . . . . . . . . . . . . . . . 9 1.1 1.1.1 1.1.2 1.1.3 1.1.4 Erfassung und Darstellung von Daten . . . . . . . Aufgaben der beschreibenden Statistik . . . . . . . . . . . Grundbegriffe der beschreibenden Statistik . . . . . . . . Systematische Erfassung und Aufbereitung von Daten Grafische Darstellung des Zahlenmaterials . . . . . . . . 1.2 1.2.1 1.2.2 1.2.2.1 1.2.2.2 1.2.2.3 1.2.3 1.2.4 Kenngrößen einer Stichprobe . . . . . . . . . . . . . . . . . . . Häufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arithmetisches Mittel (Durchschnittswert, Mittelwert) . . . . . Gewichtetes arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Offene Lernsituationen zu den Kenngrößen einer Stichprobe . . . . . . . 1.3 1.3.1 1.3.2 1.3.3 1.3.4 Klassierung großer Stichproben . . . . . . . . . . . . . . . . Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arithmetisches Mittel klassierter Daten . . . . . . . . . . . . . . . Varianz und Standardabweichung klassierter Daten . . . . . . Offene Lernsituationen zur Klassierung großer Stichproben . . . . 2 Mit dem Zufall rechnen . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.1 2.1.1 2.1.2 Zufallsexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Aufgaben der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . 68 Grundbegriffe der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . 69 2.2 2.2.1 2.2.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Zusammenhang zwischen relativer Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Laplace-Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 Grundlegende Wahrscheinlichkeitsrechnung . . . . . . . . . . . . Mehrstufige Zufallsversuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baumdiagramme und Pfadregeln . . . . . . . . . . . . . . . . . . . . . . . . . Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . ........... 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 10 11 14 . . . . . 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 26 26 28 31 47 57 . . . . . . 60 . . . . . . . . . . . . . . . . . . . . 60 61 63 65 78 78 79 85 91 97 5 Inhaltsverzeichnis 2.3.6 2.3.7 Bernoulli-Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Offene Lernsituationen zur grundlegenden Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 2.4 Allgemeine Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 116 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 Zufallsgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsverteilung der Zufallsgröße . . . . . . . . . . . . . . Erwartungswert der Zufallsgröße . . . . . . . . . . . . . . . . . . . . . . . . Standardabweichung und Streuungsintervall der Zufallsgröße . . . Offene Lernsituationen zu allgemeinen Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 116 117 121 126 132 2.5 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 2.5.1 2.5.2 2.5.3 2.5.4 2.5.5 2.5.6 Einzelne und kumulierte Wahrscheinlichkeiten . . . . . . . . . . . . . . Verhältniszeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erwartungswert binomialverteilter Zufallsgrößen . . . . . . . . . . . . . Varianz und Standardabweichung binomialverteilter Zufallsgrößen Sigma-Regeln (Intervalle um den Erwartungswert) . . . . . . . . . . . Offene Lernsituationen zur Binomialverteilung . . . . . . . . . . . . . . 2.6 Normalverteilung 2.6.1 2.6.2 2.6.3 2.6.4 Dichte- und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Approximation der Binomialverteilung durch die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Offene Lernsituationen zur Normalverteilung . . . . . . . . . . . . . . . 3 Daten beurteilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 3.1 Grundbegriffe der beurteilenden Statistik . . . . . . . . . . . . . 186 3.2 Idee der Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . 187 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 188 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 201 3.5 Offene Lernsituationen zu Vertrauensintervallen . . . . . . . 208 135 144 149 151 155 161 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 163 170 175 184 Anhang 앫 앫 앫 앫 Tabellen zur Binomialverteilung Tabelle zur Normalverteilung . . Formelsammlung . . . . . . . . . . . GTR-Befehle . . . . . . . . . . . . . . ... .... .... .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 217 219 223 Sachwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Bildquellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 6 Mathematische Zeichen und Symbole Mathematische Zeichen und Symbole Zeichen, Symbol Sprechweise/Bedeutung Beispiel ⫽ ⬆ 艐 gleich ungleich 4⫽4 3⬆4 ist ungefähr gleich ⬍ ⬎ ⱕ ⱖ ⱍⱍ ⬁ ⇒ ⇔ kleiner als größer als kleiner gleich größer gleich Betrag von unendlich daraus folgt gilt genau dann, wenn ; ist äquivalent mit und oder 冪2 艐 1,41 3⬍4 5⬎4 xⱕ3 xⱖ4 ⱍ ⫺3 ⱍ ⫽ 3 ∧ ∨ {1 ; 2 ; 3} 傼 傽 [a ; b ] (a ; b ) [a ; b ) (a ; b ] 哫 n p q xi x x̃ m s n ⫽ {0 ; 1 ; 2 ; 3 ; …} ⇒ 1僆n 2x ⫽ 4 ⇔ x ⫽ 2 Menge mit den Elementen 1, 2, 3 vereinigt, Vereinigungsmenge geschnitten, Schnittmenge geschlossenes Intervall (von einschließlich a bis einschließlich b ) offenes Intervall (von ausschließlich a bis ausschließlich b ) halb offenes Intervall (von einschließlich a bis ausschließlich b ) A ⫽ {1 ; 2 ; 3} {1; 2} 傼 {3; 4} ⫽ {1; 2; 3; 4} {1; 2; 3} 傽 {2; 3; 4} ⫽ {2; 3} halb offenes Intervall (von ausschließlich a bis einschließlich b ) wird zugeordnet Stichprobenumfang Wahrscheinlichkeit Gegenwahrscheinlichkeit q ⫽ 1 ⫺ p Merkmal xi Arithmetisches Mittel, Mittelwert, Durchschnittswert einer Zahlenreihe Median, Zentralwert einer Zahlenreihe Erwartungswert mü Standardabweichung sigma {x ⱍa ⬍ x ⱕ b } {x ⱍa ⱕ x ⱕ b } {x ⱍa ⬍ x ⬍ b } {x ⱍa ⱕ x ⬍ b } si 哫 x n ⫽ 100 7 Mathematische Zeichen und Symbole Zeichen, Symbol Sprechweise/Bedeutung S Summe 3 n 兺 xi Summe aller xi von i ⫽ 1 bis i ⫽ n i⫽1 冢k冣 ⫽ k! ⋅ (n ⫺ k)! n! Ereignis nicht E Wahrscheinlichkeit für Ereignis E Ergebnis Ergebnismenge Fakultät n über k (Binomialkoeffizient) n Fakultät geteilt durch das Produkt aus (n ⫺ k) Fakultät und k Fakultät b 兰 a 8 兺x ⫽1⫹2⫹3⫽6 i i⫽1 E E P (E) ei S ! n Beispiel S ⫽ {e1 ; e2 ; e3 ; …; en} 3! ⫽ 3 ⋅ 2 ⋅ 1 ⫽ 6 冢3冣 ⫽ 3! ⋅ (5 ⫺ 3)! ⫽ 10 5! 5 1 f (x) d x Integral f von x d x von a bis b 兰x dx 2 0 1 Daten darstellen und auswerten 1.1 Erfassung und Darstellung von Daten 1.1.1 Aufgaben der beschreibenden Statistik Die beschreibende Statistik ist ein Teilgebiet der Stochastik. Mit den Methoden der beschreibenden Statistik werden Daten erfasst, zusammengestellt, sortiert und grafisch veranschaulicht. Da häufig große Datenmengen vorhanden sind, müssen diese vor einer Auswertung aufbereitet werden. Die aufbereiteten Daten können als Entscheidungshilfe dienen. Als Daten werden in der Statistik alle Fakten bezeichnet, die durch Umfragen, Erhebungen, Kontrollen, Auszählungen, Messungen oder Ähnliches zusammengestellt wurden. Dies können z. B. 앫 die Absatzzahlen eines Automobilkonzerns in einem bestimmten Zeitraum, 앫 die Arbeitslosenquoten in den verschiedenen Bundesländern, 앫 die Benzinpreise an jedem Tag des Jahres, 9 3 Daten beurteilen 3.1 Grundbegriffe der beurteilenden Statistik Die wichtigsten Grundbegriffe der beurteilenden Statistik werden anhand eines einfachen Beispiels erläutert. Die einzelnen Begriffe werden im Rahmen von Beispielaufgaben aufgegriffen. Beispiel Eine Fast-Food-Kette möchte eine für die Produktionsmenge verwertbare Aussage darüber treffen, wie groß die Wahrscheinlichkeit ist, dass die Kunden in Hamburg einen neuen Burger kaufen würden. An einem Konsumententest in Hamburg nehmen daher zufällig ausgewählte Kunden teil und werden nach einer Verkostung zu ihrer Kaufbereitschaft befragt. Die Gesamtheit aller Kunden in Hamburg wird als Grundgesamtheit bezeichnet. Um ein absolut exaktes Ergebnis zu erhalten, müsste der Konzem alle Kunden 186 3.2 Idee der Vertrauensintervalle befragen. Dies wäre eine Vollerhebung. Es wird allerdings nur ein Teil der Kunden befagt, daher spricht man von einer Teilerhebung. Da die Kunden zufällig ausgewählt wurden, handelt es sich um eine Stichprobe. Die Anzahl der befragten Personen bezeichnet man als Stichprobenumfang. Wenn die Stichprobe die gleichen Eigenschaften hat wie die Grundgesamtheit, also Essgewohnheiten, Einkommen etc., dann spricht man von einer repräsentativen Stichprobe. 3.2 Idee der Vertrauensintervalle In der Realität werden Daten sehr häufig als (repräsentative) Stichproben erhoben, die dann als Grundlage für Aussagen über die Grundgesamtheit herangezogen werden. Das eigentliche Problem ist die sehr geringe Wahrscheinlichkeit, dass die Ergebnisse von einer Stichprobe und der Grundgesamtheit exakt übereinstimmen. Nehmen wir an, die Fast-Food-Kette würde jeden ihrer 50 000 Hamburger Kunden befragen. Es wäre nun möglich, dass genau 4 950 Kunden den neuen Burger kaufen würden. Dies entspricht einer relativen Häufigkeit von 4 950 ni ⫽ 0,099 ⫽ 9,9 %. h (xi) ⫽ ⫽ n 50 000 Nähme man stattdessen 10 repräsentative Stichproben mit einem Umfang von jeweils 5 000 Personen, so könnten sich folgende relative Wahrscheinlichkeiten ergeben. Stichprobe h (xi) 1 2 3 4 5 6 7 8 9 10 9,5 % 10,1 % 10 % 9,9 % 10,3 % 10,2 % 9,7 % 10,3 % 9,4 % 10,6 % Die Tabelle zeigt, dass möglicherweise nur eine Stichprobe das identische Ergebnis liefert. Daher ist es nicht möglich, anhand einer Stichprobe eine genaue Aussage über die Grundgesamtheit zu treffen. Mithilfe statistischer Überlegungen und Berechnungen ist es aber möglich, anhand von Stichproben eine Bandbreite oder ein Intervall beliebiger Genauigkeit festzulegen, in dem sich der Wert der Grundgesamtheit wahrscheinlich befindet. Dieses Intervall wird als Vertrauens- oder Konfidenzintervall1) bezeichnet. Nehmen wir an, der Fast-Food-Konzern hätte lediglich 5 000 Kunden befragt und die Befragung hätte ergeben, dass 10 % den neuen Burger kaufen würden. Nun könnten z. B. drei unterschiedliche Aussagen aufgestellt werden. 1. Der Anteil der Grundgesamtheit beträgt ebenfalls genau 10 %. 2. Der Anteil der Grundgesamtheit liegt zwischen 0 % und 100 %. 3. Der Anteil der Grundgesamtheit liegt zwischen 9 % und 11 %. 1) von lateinisch confidere: vertrauen 187 3 Daten beurteilen Die erste Aussage ist sehr unwahrscheinlich. Die zweite Aussage ist auf jeden Fall richtig, aber wenig sinnvoll, da anhand dieser Zahlen nicht geplant werden kann. Die dritte Aussage scheint brauchbar zu sein. Es fehlt jedoch eine Angabe darüber, wie wahrscheinlich es ist, dass der Anteilswert der Grundgesamtheit in diesem Intervall liegt. Diese Wahrscheinlichkeit wird als Sicherheits- oder Vertrauenswahrscheinlichkeit bezeichnet. Die Wahrscheinlichkeit, dass der Anteilswert der Grundgesamtheit nicht in diesem Intervall liegt, heißt Irrtumswahrscheinlichkeit. Irrtumswahrscheinlichkeit und Vertrauenswahrscheinlichkeit ergeben zusammen immer 100 %. Bei der ersten Aussage muss wegen des sehr kleinen Intervalls die Vertrauenswahrscheinlichkeit sehr gering und die Irrtumswahrscheinlichkeit im Gegenzug sehr hoch sein, wie zur Tabelle überlegt wurde. Bei der zweiten Aussage hingegen ist es genau umgekehrt. Aus den vorangegangenen Überlegungen ergibt sich, dass die Vertrauenswahrscheinlichkeit und Intervallbreite zusammenhängen. Je breiter das Intervall, desto größer ist die Vertrauenswahrscheinlichkeit und desto kleiner ist die Irrtumswahrscheinlichkeit. Wie dicht der tatsächliche Wert der Grundgesamtheit an dem Stichprobenwert liegt, hängt dabei ganz entscheidend vom Stichprobenumfang und dem Standardfehler, der Standardabweichung mehrerer Stichprobenergebnisse, ab. Es gilt: Je größer der Stichprobenumfang, desto unwahrscheinlicher ist es, dass der Stichprobenwert weit vom Wert der Grundgesamtheit entfernt ist. Je kleiner der Standardfehler ist, desto unwahrscheinlicher ist es, dass der Stichprobenwert weit vom Wert der Grundgesamtheit entfernt ist. Der Anteil der Grundgesamtheit wird häufig als „wahrer“ Anteil bezeichnet. Ein angegebenes Vertrauensintervall lässt sich nur dann sinnvoll interpretieren, wenn die dazugehörige Vertrauenswahrscheinlichkeit, also die Wahrscheinlichkeit, dass der Wert der Grundgesamtheit in dem angegeben Intervall liegt, angegeben ist. Üblich sind Vertrauenswahrscheinlichkeiten von 90 %, 95 % und 99 %. Es ist aber möglich, das Intervall für jede beliebige Vertrauenswahrscheinlichkeit zu bestimmen. 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten Zu jedem Vertrauensintervall gehört eine Vertrauenswahrscheinlichkeit. Die nachfolgende Grafik ist bereits aus dem Kapitel 2.5.5 Sigma-Regeln bekannt. Sie zeigt die Wahrscheinlichkeitsverteilung einer binomialverteilten Zufallsgröße mit n ⫽ 100 und p ⫽ 0,5. 188 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten Es ist gut zu erkennen, dass in dem Intervall [m ⫺ 3 s; m ⫹ 3 s] praktisch alle für die Gesamtwahrscheinlichkeit relevanten Einzelwahrscheinlichkeiten enthalten sind. Die Gesamtwahrscheinlichkeit aller Werte, die außerhalb des Intervalls liegen, ist annähernd null. Die Näherungen werden mit zunehmendem Stichprobenumfang n immer besser. Neben den drei in der Grafik gezeigten Sigma-Regeln werden häufig die drei s-Umgebungen 1,64 s Ⳏ 90 %, 1,96 s Ⳏ 95 % und 2,58 s Ⳏ 99 % verwendet. [μ−3σ; μ+3σ] P(X=k) [μ−2σ; μ+2σ] [μ−σ; μ+σ] 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 25 30 35 40 45 50 μ 55 60 65 70 75 k ≈ 68% ≈ 95,5% ≈ 99,7% Die Wahrscheinlichkeiten, die mit einer Sicherheit von 90 %, 95 % bzw. 99 % in das dazugehörige Vertrauensintervall fallen, lassen sich mithilfe der nachfolgenden Formel berechnen. ⱍp ⫺ hⱍ ⱕ c ⋅ 冪 p ⫺ p2 X mit h ⫽ n n Wahrscheinlichkeiten innerhalb eines Vertrauensintervall Wobei c für die jeweilige Breite der Sigma-Umgebung steht: 90 % Ⳏ c ⫽ 1,64 oder 95 % Ⳏ c ⫽ 1,96 oder 99 % Ⳏ c ⫽ 2,58 Das Vertrauensintervall I lautet: 冤 冪 冪 冥 c2 c2 c2 h (1 ⫺ h) c2 h (1 ⫺ h) ⫹h⫺c⋅ ⫹ ⫹ h ⫹ c ⋅ ⫹ 2 2 2n 4n n 2n 4n n I⫽ ; 2 2 c c ⫹1 ⫹1 n n exakt bestimmtes Vertrauensintervall Situation 1 In einem kunststoffverarbeitenden Betrieb werden rote und grüne Plastikeimer produziert. Als Stichprobe werden der laufenden Produktion 100 Eimer entnommen. Genau die Hälfte dieser Eimer ist rot. Wie groß ist mit einer Sicherheitswahrscheinlichkeit von 95 % der Anteil der roten Eimer in der Produktion? 189 3 Daten beurteilen Algebraische Lösung Zunächst wird die Zufallsgröße X: „Anzahl roter Eimer“ definiert. Die relative Häufigkeit dafür, dass ein Eimer der Stichprobe rot ist, beträgt somit X 50 h (xi) ⫽ h ⫽ ⫽ ⫽ 0,5 ⫽ 50 %. Darüber hinaus werden der Erwartungswert n 100 m und der Standardfehler, also die Standardabweichung der Stichprobe s, benötigt. Für binomialverteilte Zufallsgrößen gilt m ⫽ n ⋅ p. Die Wahrscheinlichkeit p ist in diesem Fall jedoch nicht bekannt. Nach dem empirischen Gesetz großer Zahlen1) nähert sich die relative Häufigkeit h mit steigendem Stichprobenumfang jedoch immer weiter dem Wert von p an. Daher gilt für den Erwartungswert m ⫽ n ⋅ h ⫽ 100 ⋅ 0,5 ⫽ 50. Für die Standardabweichung gilt dementsprechend s ⫽ 冪n ⋅ h ⋅ (1 ⫺ h) ⫽ 冪100 ⋅ 0,5 ⋅ (1 ⫺ 0,5) ⫽ 5. Außerdem gehört zum 95 %Vertrauensintervall die 1,96 s-Umgebung. Unterstellt man nun, dass der anhand der Stichprobe ermittelte Anteil von 50 % dem wahren Anteil roter Eimer entspricht, so würde sich folgendes Histogramm ergeben: X h= n Ein Ergebnis von 50 roten Eimern ist mit der Wahrscheinlichkeit von 50 % vereinbar, da es im 1,96 s-Intervall um den Erwartungswert liegt. Dies bedeutet aber nicht, dass der Wert der Stichprobe mit dem wahren Wert der Grundgesamtheit übereinstimmen muss. [μ −1,96σ; μ +1,96σ] 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 25 30 35 40 45 5 0 55 60 65 70 75 X μ = 50 X h= n [μ −1,96σ; μ +1,96σ] 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 25 30 35 40 45 50 55 60 65 70 75 μ = 41 1) 190 vgl. Seite 74 X Gesucht sind nun alle Wahrscheinlichkeiten, bei denen der Erwartungswert innerhalb des 1,96 s-Intervall liegt. Verringert man die Wahrscheinlichkeit, so verschiebt sich das Histogramm auf der x-Achse nach links. Die geringste Wahrscheinlichkeit, die mit der Stichprobe vereinbar ist, liegt bei 41 %, da der ursprüngliche Erwartungswert 50 nun gerade noch „rechts im Intervall“ liegt. 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten Erhöht man die Wahrscheinlichkeit, so verschiebt sich das Histogramm auf der x-Achse nach rechts. 0,09 0,08 Die maximale Wahrscheinlichkeit, die 0,07 mit der Stichprobe vereinbar ist, liegt 0,06 0,05 bei 59 %, da der ursprüngliche 0,04 Erwartungswert 50 nun gerade noch 0,03 0,02 „links im Intervall“ liegt. 0,01 Das 95 %-Vertrauensintervall umfasst 25 30 35 40 45 50 55 60 65 70 75 X μ = 59 somit alle Werte zwischen 41 % und 59 %. Der Anteil der roten Eimer in der Produktion beträgt daher mit einer Wahrscheinlichkeit von 95 % zwischen 41 % und 59 %. X h= n [μ −1,96σ; μ +1,96σ] Das Problem lässt sich aber nicht nur grafisch, sondern auch algebraisch lösen. Gesucht ist zunächst das Intervall [m ⫺ 1,96 s; m ⫹ 1,96 s] oder anders ausgedrückt m ⫺ 1,96 ⋅ s ⱕ X ⱕ m ⫹ 1,96 ⋅ s. Wegen m ⫽ n ⋅ p und s ⫽ 冪n ⋅ p ⋅ (1 ⫺ p) gilt: n ⋅ p ⫺ 1,96 ⋅ 冪n ⋅ p ⋅ q ⱕ X ⱕ n ⋅ p ⫹ 1,96 ⋅ 冪n ⋅ p ⋅ q Durch einige Umformungen lassen sich nun die Wahrscheinlichkeiten, die in dem Vertrauensintervall liegen, exakt bestimmen. n ⋅ p ⫺ 1,96 ⋅ 冪n ⋅ p ⋅ q ⱕ X ⱕ n ⋅ p ⫹ 1,96 ⋅ 冪n ⋅ p ⋅ q Der Anteil der StichX probe ist , daher muss n durch n dividert werden. p ⫺ 1,96 ⋅ 冪n ⋅ p ⋅ (1 ⫺ p) X 冪n ⋅ p ⋅ (1 ⫺ p) ⱕ ⱕ p ⫹ 1,96 ⋅ n n n X entspricht der relativen n Häufigkeit h. p ⫺ 1,96 ⋅ 冪n ⋅ p ⋅ (1 ⫺ p) 冪n ⋅ p ⋅ (1 ⫺ p) ⱕ h ⱕ p ⫹ 1,96 ⋅ n n Im Zähler wird 冪n ausgeklammert. 冪n ⋅ 冪p ⋅ (1 ⫺ p) 冪n ⋅ 冪p ⋅ (1 ⫺ p) ⱕ h ⱕ p ⫹ 1,96 ⋅ n n n wird durch 冪n ⋅ 冪n ersetzt, um kürzen zu können. p ⫺ 1,96 ⋅ p ⫺ 1,96 ⋅ 冪n ⋅ 冪p ⋅ (1 ⫺ p) 冪n ⋅ 冪n p ⫺ 1,96 ⋅ 冪p ⋅ (1 ⫺ p) 冪n ⱕ h ⱕ p ⫹ 1,96 ⋅ ⱕ h ⱕ p ⫹ 1,96 ⋅ 冪n ⋅ 冪n 冪p ⋅ (1 ⫺ p) 冪n 冪 n⫺ p p p p p ⫺ 1,96 ⋅ 冪 ⫺n ⱕ h ⱕ p ⫹ 1,96 ⋅ 冪 ⫺n p ⫺ 1,96 ⋅ 冪 冪n ⋅ 冪p ⋅ (1 ⫺ p) p ⋅ (1 ⫺ p) ⱕ h ⱕ p ⫹ 1,96 ⋅ n 2 ⱍ p ⫺ h ⱍ ⱕ 1,96 ⋅ p ⋅ (1 2 冪 p ⫺ p2 n p) 冪n kürzen. Wurzelgesetz anwenden. Die Klammer unter der Wurzel ausmultiplizieren. Als Ungleichung geschrieben ergibt sich: Aus der Formel wird ersichtlich, dass mit steigendem Stichprobenumfang n das Konfidenzintervall schmaler wird. 191 3 Daten beurteilen 50 X ⫽ ⫽ 0,5 und n ⫽ 100 lassen sich nun die n 100 Wahrscheinlichkeiten, die innerhalb des 95 %-Vertrauensintervall liegen, berechnen. Durch einsetzen der Werte h ⫽ ⱍ p ⫺ 0,5 ⱍ ⱕ 1,96 ⋅ 冪 100 p ⫺ p2 quadrieren p ⫺ p2 100 100 (p ⫺ 0,5)2 ⱕ 1,962 ⋅ (p ⫺ p2) 100 (p2 ⫺ p ⫹ 0,25) ⱕ 3,8416 (p ⫺ p2) 100 p2 ⫺ 100 p ⫹ 25 ⱕ 3,8416 p ⫺ 3,8416 p2 103,8416 p2 ⫺ 103,8416 p ⫹ 25 ⱕ 0 p2 ⫺ p ⫹ 0,24075 ⱕ 0 (p ⫺ 0,5)2 ⱕ 1,962 ⋅ p p1/2 ⫽ ⫺ ± 2 ⱍ ⋅ 100 Binomische Formel und quadrieren. ausmultiplizieren ⱍ ⫺ (3,8416 p ⫺ 3,8416 p2) ⱍ ⬊ 103,8416 p-q-Formel 冪冢2冣 ⫺ q ⫽ ⫺ 2 ± 冪冢 2 冣 ⫺ 0,24075 p ⫺1 2 ⫺1 2 p1 ⫽ 0,5 ⫺ 冪0,00925 艐 0,4038 ∧ p2 ⫽ 0,5 ⫹ 冪0,00925 艐 0,5962 p muss also Werte innerhalb des Intervalls [0,4038; 0,5962] annehmen, damit die p ⫺ p2 Bedingung ⱍ p ⫺ 0,5 ⱍ ⱕ 1,96 erfüllt ist. Das Stichprobenergebnis 100 X 50 ⫽ ⫽ 0,5 ⫽ 50 % ist mit Anteilswerten der Grundgesamtheit zwischen n 100 40,38 % und 59,62 % verträglich. Der wahre Anteil roter Eimer liegt mit einer Wahrscheinlichkeit von 95 % zwischen 40,38 % und 59,62 %. Das gleiche Ergebnis erhält man, wenn das Vertrauensintervall direkt berechnet wird. 冪 冤 冤 冪 冪 冥 c2 c2 c2 h (1 ⫺ h) c2 h (1 ⫺ h) ⫹ ⫹ ⫹h⫺c⋅ ⫹h⫹c⋅ 2 2n 4h n 2n 4 n2 n ; I⫽ c2 c2 ⫹1 ⫹1 n n 冪 冪 1,962 1,962 1,962 0,5 ⋅ (1 ⫺ 0,5) 1,962 0,5 ⋅ (1 ⫺ 0,5) ⫹ ⫹ ⫹ 0,5 ⫺ 1,96 ⋅ ⫹ 0,5 ⫹ 1,96 ⋅ 2 ⋅ 100 4 ⋅ 1002 100 2 ⋅ 100 4 ⋅ 1002 100 ; I⫽ 1,962 1,962 ⫹1 ⫹1 100 100 0,519208 ⫺ 1,96 ⋅ 冪0,00259604 0,519208 ⫹ 1,96 ⋅ 冪0,00259604 I⫽ ; 1,038416 1,038416 I 艐 [0,4038; 0,5962] 冤 192 冥 冥 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten Rechnergestützte Lösung Bestimmung exakter Vertrauensintervalle Exakte Vertrauensintervalle lassen sich mit dem GTR mit zwei unterschiedlichen grafischen Ansätzen lösen. Dem einen Ansatz liegt eine Parabel, dem anderen eine Ellipse zu Grunde. Daher werden diese Ansätze häufig als Parabelansatz und als Ellipsenansatz bezeichnet. Zur Erläuterung der beiden Ansätze wird auf die Daten aus Situation 1 von S. 189 zurückgegriffen. Parabelansatz Dafür wird die auf Seite 191 hergeleitete Formel in eine quadratische Ungleichung umgeformt. p ⫺ p2 | quadrieren ⱍ p ⫺ 0,5 ⱍ ⱕ 1,96 ⋅ 100 p ⫺ p2 (p ⫺ 0,5)2 ⱕ 1,962 ⋅ | ⋅ 100 100 | ⫺ 1,962 ⋅ (p ⫺ p2) 100 (p ⫺ 0,5)2 ⱕ 1,962 ⋅ (p ⫺ p2) 冪 100 (p ⫺ 0,5)2 ⫺ 1,962 ⋅ (p ⫺ p2) ⱕ 0 Der Graph des Terms ist eine nach oben geöffnete Parabel. Es werden die Funktionswerte (Wahrscheinlichkeiten) gesucht, die kleiner oder gleich null sind. Zwischen den Nullstellen sind die Funktionswerte kleiner als null, da der Graph unterhalb der Abszissenachse verläuft. f (p) 1 VI = [p1; p2] p p1 ≈ 0,4 –1 p1 ≈ 0,6 f (p) = 100 (p – 0,5)2 – 1,962 (p – p2) Daher bilden die beiden Nullstellen des Graphen die linke und rechte Grenze des Vertrauensintervalls. Die Nullstellen lassen sich nun mithilfe des GTR bestimmen. Zunächst wird der durch Umformung entstandene Term in den Y-Editor eingegeben. GTR 193 3 Daten beurteilen Anschließend lassen sich durch 2nd [CALC] 2:zero die beiden Nullstellen berechnen. Cursor erst links der Nullstelle setzen, ENTER , dann rechts der Nullstelle, ENTER , ENTER . Die zweite Nullstelle wird dementsprechend bestimmt. Allgemein gilt: VI ⫽ [p1 ; p2] mit p1; 2 ⇔ f (p) ⫽ n (p ⫺ h)2 ⫺ c2 (p ⫺ p2) ⱕ 0 und h ⫽ X n Vertrauensintervall mit Parabelansatz Wobei c für die jeweilige Breite der Sigma-Umgebung steht. Ellipsenansatz Im Gegensatz zum Parabelansatz wird die auf Seite 191 hergeleitete Formel nicht in eine quadratische Ungleichung umgeformt, sondern der vorangegangene p ⫺ p2 p ⫺ p2 in zwei Teilgleichunⱕ h ⱕ p ⫹ 1,96 ⋅ Schritt p ⫺ 1,96 ⋅ 100 100 gen zerlegt: 冢 冪 h ⫽ p ⫺ 1,96 ⋅ 冪 冪 p ⫺ p2 100 冣 h ⫽ p ⫹ 1,96 ⋅ 冪 p ⫺ p2 100 In Situation 1 auf Seite 189 lag der relative Anteil roter Eimer bei 50 %, daher ist h ⫽ 50 %. Somit ergibt sich in diesem Fall: 0,5 ⫽ p ⫺ 1,96 ⋅ 冪 p ⫺ p2 100 0,5 ⫽ p ⫹ 1,96 ⋅ 冪 p ⫺ p2 100 Die Graphen des blauen und roten Terms bilden dann jeweils den oberen oder unteren Teil einer Ellipse. Die in der Stichprobe ermittelte relative Häufigkeit wird zusätzlich als waagerechte Gerade in das Koordinatensystem eingezeichnet. Die Schnittstellen dieser Geraden mit der Ellipse bilden die linke und die rechte Grenze des Vertrauensintervalls. 194 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten h h1 (p) = p + 196 · p – p2 100 VI = [p1; p2] h = 0,5 p1 ≈ 0,4 p1 ≈ 0,6 h1 (p) = p – 196 · p – p2 100 p 1 Die Intervallgrenzen lassen sich nun mithilfe des GTR bestimmen. Zunächst müssen die beiden Terme p ⫺ p2 p ⫺ p2 p ⫹ 1,96 ⋅ und p ⫺ 1,96 ⋅ so100 100 wie 0,5 in den Y-Editor eingegeben werden. 冪 冪 GTR Anschließend lassen sich durch 2nd [CALC] 5: intersect die beiden Schnittstellen berechnen. Mit dem Cursor die „obere Ellipsenhälfte“ auswählen, ENTER , dann die Gerade, ENTER , ENTER . Die zweite Schnittstelle wird dementsprechend bestimmt. Allgemein gilt: 冪 und h ⫽ X n p⫺p p ⇔h⫽p⫺c⋅ 冪 n p1 ⇔ h ⫽ p ⫹ c ⋅ VI ⫽ [p1 ; p2] mit p ⫺ p2 n 2 2 Vertrauensintervall mit Ellipsenansatz 195 3 Daten beurteilen Näherungsweise bestimmte Vertrauensintervalle Sowohl die Berechnung der Wahrscheinlichkeiten, die innerhalb des Vertrauensintervalls liegen, als auch die direkte Berechnung des Vertrauensintervalls sind relativ aufwendig. Daher bedient man sich bei großen Stichproben oder relativen Häufigkeiten die nahe von 0,5 liegen einer Näherung. Das Vertrauensintervall lässt sich dann direkt angeben. 冤 VI ⫽ h ⫺ c ⋅ 冪 h ⫺ h2 ;h⫹c⋅ n 冪 h ⫺ h2 n 冥 näherungsweise bestimmtes Vertrauensintervall Die Näherung liefert für brauchbare Werte für n ⱖ 1 000. Bei kleineren Stichproben ist die Näherung nur geeignet, wenn 0,3 ⱕ h ⱕ 0,7 gilt. Situation 2 Durch Marktanalysen ist bekannt, dass eine Fast-Food-Kette in Hamburg 50 000 Kunden hat. Mit einer groß angelegten Werbekampagne soll ein neuer Burger eingeführt werden. Um die Produktionsmenge zu bestimmen, wurden daher im Vorfeld 5 000 zufällig ausgewählte Kunden einem Konsumententest unterzogen. 500 von ihnen gaben an, den neuen Burger kaufen zu wollen. Anhand dieser Stichprobe soll festgelegt werden, wie viele Burger für 50 000 Kunden produziert werden müssen. Die Geschäftsführung möchte nur sehr ungern kaufwillige Kunden nicht bedienen können und plant mit einer Sicherheitswahrscheinlichkeit von 99 %. Berechnen Sie exakt und näherungsweise, wie viele Burger für 50 000 Kunden produziert werden sollten. Algebraische Lösung Gesucht ist das 99 %-Vertrauensintervall. Die dazugehörige Breite der SigmaUmgebung ist 2,58. Der Stichprobenumfang beträgt 5 000 Personen. Das StichX 500 probenergebnis ist ⫽ ⫽ 0,1. n 5 000 Durch Einsetzen in die jeweiligen Formeln ergibt sich: Exakte Lösung 冪 ⫺n p p ⱍ p ⫺ 0,1 ⱍ ⱕ 2,58 ⋅ 冪 5⫺000 ⱍ p ⫺ h ⱍ ⱕ 2,58 ⋅ p p2 2 5 000 ⋅ (p ⫺ 0,1)2 ⱕ 6,6564 (p ⫺ p2) 5 000 p2 ⫺ 1 000 p ⫹ 50 ⱕ 6,6564 p ⫺ 6,6564 p2 5 006,6564 p2 ⫺ 1 006,6564 p ⫹ 50 ⱕ 0 Näherungs-Lösung 冤 VI ⫽ h ⫺ c ⋅ 冤 冪 h ⫺ h2 ;h⫹c⋅ n VI ⫽ 0,1 ⫺ 2,58 ⋅ 冪 196 h ⫺ h2 n 冥 0,1 ⫺ 0,01 ; 5 000 0,1 ⫹ 2,58 ⋅ 冪 0,1 ⫺ 0,01 5 000 VI ⫽ [0,1 ⫺ 0,0109; 0,1 ⫹ 0,0109] p1 艐 0,0896 und p2 艐 0,1115 VI ⫽ [0,0896; 0,1115] 冪 VI ⫽ [0,0891; 0,1109] 冥 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten In beiden Fällen liegt der wahre Anteil mit einer Wahrscheinlichkeit von 99 % zwischen ca. 9 % und ca. 11 %. Da die Anzahl der Burger gesucht war, müssen diese Werte noch mit der Anzahl der Kunden multipliziert werden. p1 ⋅ n ⫽ 0,0896 ⋅ 50 000 ⫽ 4 480 p2 ⋅ n ⫽ 0,1115 ⋅ 50 000 ⫽ 5 575 Das Unternehmen sollte aufgrund des Stichprobenergebnisses 5 575 Burger produzieren. p1 ⋅ n ⫽ 0,0891 ⋅ 50 000 ⫽ 4 455 p2 ⋅ n ⫽ 0,1109 ⋅ 50 000 ⫽ 5 545 Das Unternehmen sollte aufgrund des Stichprobenergebnisses 5 545 Burger produzieren. Die Abweichung beträgt in diesem Fall lediglich 30 Burger oder ca. 0,5 %. Rechnergestützte Lösung Exakte Lösung GTR Zunächst wird der Term (p ⫺ p2) (p ⫺ 0,1)2 ⫺ 2,582 ⋅ benötigt und in den 5 000 Y-Editor eingegeben. Anschließend lassen sich durch 2nd [CALC] 2:zero die beiden Nullstellen berechnen. Cursor erst links der Nullstelle setzen, ENTER dann rechts der Nullstelle, ENTER , ENTER . Die zweite Nullstelle wird dementsprechend bestimmt. Näherungsweise Lösung Die Formel zur näherungsweisen Bestimmung des Vertrauenintervalls ist bereits vorhanden. Zunächst mit STAT [TESTS] A:1-PropZInt ENTER das Vertrauensintervall auswählen. 197 3 Daten beurteilen Anschließend die entsprechenden Werte mit ENTER eingeben. Dabei steht x für das absolute Ergebnis der Stichprobe, n für den Stichprobenumfang und C-Level für die Vertrauenswahrscheinlichkeit. ENTER liefert das Vertrauensintervall. Situation 3 Ein Medikamentenhersteller hat zwei neue Schmerzmittel entwickelt, die unter den Namen Abinol und Brasitin vermarktet werden sollen. Abinol ist bereits zugelassen, für Brasitin steht die Zulassung noch aus. Im Rahmen einer Studie soll die besonders schnelle Wirksamkeit beider Medikamente belegt werden. Daher werden 1 550 Schmerzpatienten mit den Medikamenten therapiert. Abinol Zeit seit der Einnahme Brasitin 15 min 20 min schmerzfrei 837 1 347 nicht schmerzfrei 663 153 Zeit seit der Einnahme 15 min 20 min schmerzfrei 240 470 nicht schmerzfrei 260 30 a) Bestimmen Sie mit dem GTR, wie viele von jährlich 100 000 Patienten nach der Einnahme von Abinol mit einer Wahrscheinlichkeit von 90 % innerhalb von 20 Minuten schmerzfrei sein werden. b) Bestimmen Sie mit dem GTR, wie viel Prozent aller Patienten nach der Einnahme von Brasitin mit einer Wahrscheinlichkeit von 95 % innerhalb einer Viertelstunde schmerzfrei sein werden. GTR 198 Rechnergestützte Lösung Bei dem Medikament Abinol beträgt der Stichprobenumfang 1500 Personen. Daher kann mit der Näherung gerechnet werden. Bei Brasitin ist der Umfang mit 50 Personen zu gering und die relative Häufigkeit liegt nicht im Bereich 0,3 ⱕ h ⱕ 0,7. 3.3 Vertrauensintervalle zu konkreten Vertrauenswahrscheinlichkeiten a) Abinol 冤 VI ⫽ h ⫺ c ⋅ h⫽ 冪 h ⫺ h2 ;h⫹c⋅ n b) 冪 h ⫺ h2 n 冥 X 1 347 ⫽ ⫽ 0,898 n 1 500 Der GTR liefert: Brasitin Parabelansatz1) gewählt: n (p ⫺ h)2 ⫺ c2 (p ⫺ p2) ⱕ 0 X 39 h ⫽ ⫽ ⫽ 0,78 n 50 95 % Ⳏ c ⫽ 1,96 Der GTR liefert: VI ⫽ [0,885; 0,911] Gesucht war die Anzahl der Personen. Daher müssen die Intervallgrenzen noch mit der Anzahl der Personen multipliziert werden. 0,885 ⋅ 100 000 ⫽ 88 500 0,911 ⋅ 100 000 ⫽ 91 100 Mit einer Wahrscheinlichkeit von 90 % werden zwischen 88500 und 91 199 Personen nach der Einnahme von Abinol innerhalb von 20 Minuten schmerzfrei sein. 1) VI 艐 [0,648; 0,872] Mit einer Wahrscheinlichkeit von 95 % werden zwischen 64,8 % und 87,2 % aller Personen nach der Einnahme von Brasitin innerhalb von 20 Minuten schmerzfrei sein. Vgl. S. 193 f. 199 3 Daten beurteilen Übungsaufgaben 1 Berechnen Sie das 90 %-Vertrauensintervall, wenn eine Stichprobe unter 250 Hochschulabsolventen ergeben hat, dass 25 von ihnen arbeitslos sind. 2 Während einer Kontrolle auf der Autobahn wird die Geschwindigkeit von 1 200 Fahrzeugen gemessen. Von ihnen überschritten 140 die erlaubte Höchstgeschwindigkeit. Wie hoch ist mit einer Vertrauenswahrscheinlichkeit von 95 % der wahre Anteil der Geschwindigkeitsübertretungen? 3 Wie breit ist das 99 %-Vertrauensintervall, wenn in einem Industriebetrieb der Ausschussanteil einer 75 Stück umfassenden Stichprobe 7 % beträgt? 4 In einer Großbäckerei wird Mehl in Säcken mit einem Sollgewicht von 25 kg angeliefert. Bei der Eingangskontrolle wurden im vergangenen Monat 1 500 Säcke gewogen. Jeder zwanzigste Sack entsprach nicht dem Sollgewicht. Wie hoch ist mit einer Wahrscheinlichkeit von 95 % der wahre Anteil aller im Jahr angelieferten Mehlsäcke, bei denen das Gewicht vom Sollgewicht abweicht? 5 Um festzustellen, wie hoch der Anteil an Schwarzfahrern auf einer bestimmten Strecke ist, führt ein Bahnbetreiber eine Woche lang sehr genaue Kontrollen durch. Der Zug hat pro Tag eine maximale Kapazität von 500 Personen. Tag Mo Di Mi Do Fr Sa So Auslastung 45 % 52 % 76 % 48 % 75 % 84 % 68 % 3 5 2 4 6 6 3 Schwarzfahrer Wie hoch ist mit einer Wahrscheinlichkeit von 95 % der wahre Anteil der Schwarzfahrer auf dieser Strecke? 6 Ein Lebensmittelkonzem stellt jeden Tag aus zwei Tonnen Obst Fruchtgrütze her. Die Qualitätskontrolle prüft 5 % jeder Fruchtsorte. Um zu Grütze verarbeitet werden zu können, müssen diese mindestens der HK II entsprechen. Fruchtanteile 25% HK I HK II HK III ■ Erdbeeren ■ Himbeeren 50% 15% ■ Brombeeren ■ Birnen Erdbeeren 60 % 30 % 10 % Himbeeren 55 % 37 % 8% Brombeeren 40 % 53 % 7% Birnen 70 % 26 % 4% 10% Berechnen Sie anhand der Daten, wie hoch der Ausschussanteil roter Früchte mit einer Vertrauenswahrscheinlichkeit von 99 % ist. 200 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten Bisher wurden Vertrauensintervalle nur zu den gegebenen Vertrauenswahrscheinlichkeiten 90 %, 95 % und 99 % berechnet, da die dazugehörigen Sigma-Umgebungen bekannt waren. Mit der Standardnormalverteilung ist es jedoch auch möglich, ein Vertrauensintervall mit beliebiger Vertrauenswahrscheinlichkeit zu berechnen. ⱍp ⫺ hⱍ ⱕ c ⋅ 冪 p ⫺ p2 X mit h ⫽ n n Wahrscheinlichkeiten innerhalb eines beliebigen Vertrauensintervalls 1 2p ⋅e 1 2 z 2 dz 0,40 v (z) 1 1 v (z) 2p ⋅e 1 2 z 2 0,30 0,20 0,10 −3 1,96 1,96 −2 1 2p ⋅e ⱍp ⫺ hⱍ ⱕ 3 ⋅ −1 1 2 z 2 dz 0,40 0 1 2 1 2p 0,30 1 2 z 2 ⋅e −1,96 冪 p ⫺ p2 erfüllen. n α 2 0,10 −1 Aus Abschnitt 3.1.3 ist bekannt, dass in das 95 % Vertrauensintervall alle Wahrscheinlichkeiten fallen, die die Ungleichung ⱍ p ⫺ h ⱍ ⱕ 1,96 ⋅ 0,20 −3 冪 p ⫺ p2 erfüllen. n z 3 v (z) 0,95 v (z) α 2 Die Fläche unter der Dichtefunktion der Standardnormalverteilung beträgt 1. Im Intervall [⫺3; 3] liegen bereits annähernd 100 % aller Werte. Das 100 % Vertrauensintervall enthält somit nahezu alle Wahrscheinlichkeiten, die die Ungleichung 0 1 1,96 3 z Bei einer Vertrauenswahrscheinlichkeit von 95 % beträgt die Irrtumswahrscheinlichkeit a 5 % und ist aufgrund der Symmetrie der Standardnormalverteilung in zwei Hälften unterteilt. 201 3 Daten beurteilen a 5 % 0,05 ⫽ ⫽ ⫽ 0,025 ⫽ 2,5 %. Das dazugehörige Intervall ist eben2 2 2 falls symmetrisch. Somit ist Die rote Fläche unterhalb des Graphen entspricht der Vertrauenswahrscheinlichkeit des Vertrauensintervalls P (VI) und lässt sich mithilfe der Formel P (VI) ⫽ 1,96 1 冪2 p ⋅ 兰 e 1 ⫺ z2 2 dz berechnen. Es gilt: ⫺1,96 V (1,96) ⫺ V (⫺1,96) ⫽ V (1,96) ⫺ 冢1 ⫺ V (1,96)冣 ⫽ 0,975 ⫺ (1 ⫺ 0,975) ⫽ 0,95 oder allgemein V (z) ⫺ V (⫺z) ⫽ V (z) ⫺ 冢1 ⫺ V(z)冣 Ist der Wert für z nicht bekannt, lässt er sich durch einige Umformungen für jede beliebige Verrauenswahrscheinlichkeit berechnen. Vertrauenswahrscheinlichkeit 95 % Vertrauenswahrscheinlichkeit 93 % V (z) ⫺ V (⫺z) ⫽ 0,96 V (z) ⫺ 冢1 ⫺ V (z)冣 ⫽ 0,95 ausmultiplizieren V (z) ⫺ V (⫺z) ⫽ 0,93 V (z) ⫺ 冢1 ⫺ V (z)冣 ⫽ 0,93 V (z) ⫺ 1 ⫹ V (z) ⫽ 0,95 2 V (z) ⫺ 1 ⫽ 0,95 2 V (z) ⫽ 1,95 V (z) ⫽ 0,975 z 艐 1,96 zusammenfassen 1 addieren durch 2 dividieren Wert mit Tabelle oder GTR bestimmen V (z) ⫺ 1 ⫹ V (z) ⫽ 0,93 2 V (z) ⫺ 1 ⫽ 0,93 2 V (z) ⫽ 1,93 V (z) ⫽ 0,965 z 艐 1,81 Bestimmung von z mit der Tabelle z 0,0 202 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,5000 5040 5080 5120 5160 5199 5239 5279 5319 5359 0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753 … … 1,7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633 1,8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706 1,9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767 2,0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817 … … 3,8 9999 3,9 1 … … … … … … … … … … … … … … … … … … 9999 9999 9999 9999 9999 9999 9999 9999 9999 1 1 1 1 1 1 1 1 1 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten Bestimmung von z mit dem GTR Zunächst im Hauptbildschirm mit 2nd [DISTR] 3:invNorm( den entsprechenden Befehl auswählen. Nun den Wert für V (z) eingeben und mit ) die Eingabe beenden. ENTER liefert das gewünschte Ergebnis. Situation 1 In einem Industriebetrieb werden Energiesparlampen produziert. Jede Energiesparlampe wird vor dem Verpacken auf Funktionstüchtigkeit überprüft. Ein Mitarbeiter schaut nach einer Produktionsmenge von 1 500 Stück auf den Kontrollmonitor und liest ab, dass 6 % aller bisher kontrollierten Lampen defekt sind. Bestimmen Sie mit einer Sicherheitswahrscheinlichkeit von 98 % den wahren Anteil defekter Energiesparlampen. Algebraische Lösung Zunächst muss die zur Vertrauenswahrscheinlichkeit von 98 % gehörige SigmaUmgebung bestimmt werden. Da es sich um ein symmetrisches Intervall handelt gilt: 2 V (z) ⫺ 1 ⫽ 0,98 ⇔ V (z) ⫽ 0,99 ⇒ z 艐 2,33 Da die Stichprobe ausreichend groß ist, kann das Vertrauensintervall näherungsweise bestimmt werden. 冤 VI ⫽ h ⫺ c ⋅ 冤 冪 h ⫺ h2 ;h⫹c⋅ n VI ⫽ 0,06 ⫺ 2,33 ⋅ 冪 VI 艐 [0,0457; 0,0743] 冪 h ⫺ h2 n 冥 0,06 ⫺ 0,062 ; 0,06 ⫹ 2,33 ⋅ 1 500 冪 冥 0,06 ⫺ 0,062 1 500 Mit einer Wahrscheinlichkeit von 98 % liegt der wahre Anteil defekter Energiesparlampen zwischen 4,57 % und 7,43 %. Rechnergestützte Lösung Das Vertrauensintervall kann ohne vorherige Bestimmung der Breite der SigmaUmgebung berechnet werden. Dabei kann die Berechnung der Anzahl defekter Energiesparlampen direkt im Eingabefenster durchgeführt werden. GTR Anhang 23 203 3 Daten beurteilen Mit einer Wahrscheinlichkeit von 98 % liegt der wahre Anteil defekter Energiesparlampen zwischen 4,57 % und 7,43 %. Situation 2 Von insgesamt 20 000 Mitarbeitern eines Automobilkonzerns in Deutschland wurden 10 % befragt, ob sie eine Risikolebensversicherung haben. Von den befragten Personen waren 3 % Auszubildende. 860 Mitarbeiter, davon 12 Auszubilden, gaben an, solch eine Versicherung abgeschlossen zu haben. a) Bestimmen Sie mit einer Irrtumswahrscheinlichkeit von 15 %, wie viele aller Mitarbeiter eine Risikolebensversicherung abgeschlossen haben. b) Bestimmen Sie mit einer Vertrauenswahrscheinlichkeit von 97 % den wahren Anteil der Auszubildenden mit einer Risikolebensversicherung. Algebraische Lösung Zunächst müssen die zu den Vertrauenswahrscheinlichkeiten gehörigen Breite der Sigma-Umgebungen bestimmt werden. a) alle Mitarbeiter 2 V (z) ⫺ 1 ⫽ 0,85 ⇔ V (z) ⫽ 0,925 ⇒ z 艐 1,44 b) Auszubildende 2 V (z) ⫺ 1 ⫽ 0,97 ⇔ V (z) ⫽ 0,985 ⇒ z 艐 2,17 Von den insgesamt 20 000 Mitarbeitern wurden 10 %, also 2 000 Mitarbeiter, gefragt, daher kann auf das Vertrauensintervall näherungsweise bestimmt werden. Von den 2 000 befragten Mitarbeitem waren 3 %, also 60 Personen, Auszubildende. Der Stichprobenumfang ist zu gering, um das Vertrauensintervall näherungsweise bestimmen zu können. 冤 VI ⫽ h ⫺ c ⋅ 204 冪 h ⫺ h2 ;h⫹c⋅ n 冪 h ⫺ h2 n 冥 ⱍp ⫺ hⱍ ⱕ c ⋅ 冪 p ⫺ p2 100 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten a) alle Mitarbeiter 2 V (z) ⫺ 1 ⫽ 0,85 ⇔ V (z) ⫽ 0,925 ⇒ z 艐 1,44 b) Auszubildende 2 V (z) ⫺ 1 ⫽ 0,97 ⇔ V (z) ⫽ 0,985 ⇒ z 艐 2,17 860 der 2 000 Befragten gaben an, eine Risikolebensversicherung abgeschlossen zu haben. X 860 h⫽ ⫽ ⫽ 0,43 n 2 000 linke Grenze: 0,43 ⫺ 0,432 0,43 ⫺ 1,44 ⋅ 2 000 rechte Grenze: 0,43 ⫺ 0,432 0,43 ⫹ 1,44 ⋅ 2 000 VI 艐 [0,4141; 0,4459] 12 der 60 Auszubildenden gaben an, eine Risikolebensversicherung abgeschlossen zu haben. X 12 h⫽ ⫽ ⫽ 0,2 n 60 冪 p ⫺ p2 100 p p2 ⫺ (p ⫺ 0,2)2 ⱕ 2,172 ⋅ 100 冪 ⱍ p ⫺ 0,2 ⱍ ⱕ 2,17 ⋅ 冪 100 ⋅ (p2 ⫺ 0,4 p ⫹ 0,04) ⱕ 4,7089 p ⫺ 4,7089 p2 Mit einer Irrtumswahrscheinlichkeit von 15 % haben zwischen 41,41 % und 44,59 % aller Mitarbeiter eine Risikolebensversicherung. 100 p2 ⫺ 40 p ⫹ 4 ⱕ 4,7089 p ⫺ 4,7089 p2 104,7089 p2 ⫺ 44,7089 p ⫹ 4 ⱕ 0 p2 ⫺ 0,427 p ⫹ 0,038 ⱕ 0 p-q-Formel liefert: p1 艐 0,1264 p2 艐 0,3006 VI 艐 [0,1264; 0,3006] Mit einer Vertrauenswahrscheinlichkeit von 97 % haben zwischen 12,64 % und 30,06 % aller Auszubildenden eine Risikolebensversicherung. 205 3 Daten beurteilen GTR Rechnergestützte Lösung a) alle Mitarbeiter Das Vertrauensintervall kann ohne vorherige Bestimmung der SigmaUmgebung berechnet werden. b) Auszubildende Der Stichprobenumfang ist zu gering, um das Vertrauensintervall näherungsweise bestimmen zu können. 冪 p ⫺ p2 100 p ⫺ p2 (p ⫺ 0,2)2 ⱕ 2,172 ⋅ 100 ⱍ p ⫺ 0,2 ⱍ ⱕ 2,17 ⋅ VI 艐 [0,4141; 0,4459] Mit einer Irrtumswahrscheinlichkeit von 15 % haben zwischen 41,41 % und 44,59 % aller Mitarbeiter eine Risikolebensversicherung. VI 艐 [0,1276; 0,2994] Mit einer Vertrauenswahrscheinlichkeit von 97 % haben zwischen 12,76 % und 29,94 % aller Auszubildenden eine Risikolebensversicherung. Hinweis: Die Abweichungen zur algebraischen Lösung sind auf Rundungsdifferenzen zurückzuführen. 206 3.4 Vertrauensintervalle zu beliebigen Vertrauenswahrscheinlichkeiten Übungsaufgaben 1 Der Betreiber eines Möbelgeschäftes überlegt, eine Raucherzone einzurichten. Bei einer Befragung von 1 500 Kunden stimmten 250 für die Raucherzone. Bestimmen Sie mit einer Sicherheitswahrscheinlichkeit von 98 %, wie hoch der wahre Anteil der Kunden ist, die eine Rauchzone befürworten. 2 Der Betreiber eines Schnellrestaurants hat einen Vertrag mit einem Fußballverein geschlossen. In dem Stadion soll eine kleine Filiale eröffnet werden, in der Bratwurst, Currywurst und Pommes frites angeboten werden. Aus den Aufzeichnungen des Restaurantbetreibers geht hervor, dass bei den letzten 2 000 Gästen der Anteil der Gäste, die Currywurst bestellten, bei 35 % lag. 65 % aller Gäste, die Currywurst aßen, bestellten dazu Pommes frites. In welchem Rahmen wird sich die Anzahl der verkauften Currywürste mit Pommes frites mit einer Irrtumswahrscheinlichkeit von 2,5 % bewegen, wenn zu dem ersten Fußballspiel 45 000 Gäste erwartet werden und jeder Vierte zum Imbiss geht? 3 Ein Hotel verfügt über 250 Betten, die im letzten Jahr zu 60 % ausgelastet waren. Ein Meinungsforschungsinstitut führte im Auftrag eines Hotels in demselben Jahr eine Kundenzufriedenheitsstudie mit 4 % aller Gäste durch und fand heraus, dass es 438 Reklamationen gab. Das Meinungsforschungsinstitut behauptet nun, dass der wahre Anteil der Reklamationen zwischen 18 % und 22 % liegt. Welche Vertrauenswahrscheinlichkeit liegt dieser Aussage zu Grunde? 4 Ein Pharmakonzern hat im Rahmen einer Langzeitstudie einen neuen Wirkstoff an 1 200 Patienten getestet. Ein Fünfzehntel von ihnen klagte nach der Einnahme über Kopfschmerzen. Der Pharmakonzern gibt deshalb in einer Produktinformation für Ärzte an, dass der Anteil der Patienten, die nach der Einnahme über Kopfschmerzen klagen, zwischen 5,4825 % und 7,851 % liegt. Geben Sie die dazugehörige Vertrauenswahrscheinlichkeit an. 5 Bei einem Versicherungsunternehmen werden pro Jahr 200 Risikolebensversicherungen mit einem Versicherungswert von durchschnittlich 150 000,00 EUR abgeschlossen. Eine Stichprobe ergab, dass bei 60 von 1 500 Versicherungen ausgezahlt wurde. Die Versicherung kalkuliert anhand dieser Werte mit einer jährlichen Auszahlungssumme zwischen 900 000,00 EUR und 1 500 000,00 EUR. Bestimmen Sie die Vertrauenswahrscheinlichkeit, mit der diese Behauptung aufgestellt wurde. 6 Ein Unternehmen veranstaltet ein Gewinnspiel. Darum werden an 90 000 Haushalte Werbebriefe mit Quizfragen verschickt. Erfahrungsgemäß beträgt die Rücklaufquote 18 %. Die Teilnehmer gewinnen einen Einkaufsgutschein in Höhe von 250,00 EUR, wenn sie alle Fragen richtig beantworten. Bisher wurden 5 187 Fragebögen eingereicht und insgesamt Gutscheine im Wert von 259 000,00 EUR verschickt. Das Unternehmen kalkuliert für das gesamte Gewinnspiel mit Gutscheinen zwischen 769 500,00 EUR und 850 500,00 EUR. Bestimmen Sie die zu Grunde liegende Vertrauenswahrscheinlichkeit. 207 3 Daten beurteilen 3.5 Offene Lernsituationen zu Vertrauensintervallen Die folgenden Situationen sollen Sie mit den Ihnen zur Verfügung stehenden Rechnern bearbeiten. Besonders wichtig ist die Interpretation Ihrer Ergebnisse. Situation 1 Kurz nach der Schließung der Wahllokale sind bereits 2 000 Stimmen ausgezählt. 121 der ausgezählten Stimmen wurden für eine kleine Außenseiterpartei abgegeben. Auf einer Pressekonferenz wird der Sprecher einer großen Volkspartei gefragt, was er von der neuen Oppositionspartei hält. Der Pressesprecher antwortet: „Ich glaube nicht, dass wir im Bundestag noch eine Partei benötigen. Darüber hinaus halte ich es für einen großen Zufall, dass die Partei bislang mehr als 5 % der Stimmen erhalten hat. Sie wird ganz sicher an der 5 %-Hürde scheitern!“ Der Pressesprecher der kleinen Partei ist anderer Meinung und behauptet: „Ich bin mir zu 95 % sicher, dass wir den Einzug in den Bundestag schaffen werden!“ Welchem der beiden Parteisprecher ist mehr Vertrauen zu schenken? Situation 2 In einem großen Industrieunternehmen wird ein Roboter zur Montage von Kettensägen eingesetzt. Nach der Montage wird jede der vollautomatisch montierten Sägen manuell auf Funktionstüchtigkeit überprüft. In 1,5 % aller Fälle funktionieren die Sägen nicht. Als Leiter der Qualitätssicherung sind Sie aufgrund des relativ hohen Ausschussanteils für die Anschaffung eines neuen Roboters. Ihr Wunschmodell wird im Unternehmen bereits zur Montage von Stichsägen eingesetzt. Die Aufzeichnungen der letzten Monate ergaben, dass von 15 000 produzierten Stichsägen lediglich 120 nicht funktionstüchtig waren. Die Geschäftsleitung stimmt der Investition allerdings nur dann zu, wenn die Ausschussquote des neuen Roboters mit einer Wahrscheinlichkeit von 99 % um 25 % geringer ist als bei dem alten Roboter. Überzeugen Sie die Geschäftsleitung von der Investition. Situation 3 Ein Internetversandhändler ist auf der Suche nach einem neuen Paketdienst. Zur Wahl stehen die Unternehmen OBS und LTH. Beide Unternehmen werben damit, dass sie besonders zuverlässig sind. Nach Telefongesprächen mit den beiden Anbietern ist bekannt, dass OBS in der vergangenen Woche 50 000 Pakete ausgeliefert hat, von denen lediglich 350 nicht in der vorgegebenen Zeit zugestellt werden konnten. Der Anbieter behauptet daher, dass lediglich zwischen 0,657 % und 0,743 % aller Pakete zu spät beim Kunden ankommen. Bei LTH kamen 420 von 60 000 Paketen zu spät beim Kunden an. Der Geschäftsführer von LTH räumt ein, dass der Anteil der nicht rechtzeitig zugestellten Pakete zwischen 0,588 % und 0,812 % liegen würde. Die Geschäftsführung möchte sich aufgrund der Aussagen für OBS entscheiden, da dort der Anteil nicht rechtzeitig zugestellter Pakete weniger stark schwankt und man sich eher auf das Unternehmen verlassen könnte. Überzeugen Sie die Geschäftsleitung vom Gegenteil. 208