Skript zum Modul 141 - Statistik 10. Theoretische Verteilungen 10.1. Diskrete theoretische Verteilungen In der deskriptiven Statistik wurden die einfachen Häufigkeiten und die Summenhäufigkeiten von Merkmalsausprägungen ermittelt um ein visuelles Bild der Verteilung zu erhalten. Hierbei wurde davon ausgegangen, dass die Verteilung der Stichprobe auch der der Grundgesamtheit entspricht. Für die Beschreibung einer Verteilung durch eine Verteilungsfunktion, dem Ziel der schließenden Statistik, gibt es je nach Ausprägung der Variablen unendlich viele Möglichkeiten. Um tatsächlich von der Stichprobe auf die Grundgesamtheit zu schließen müssen hierfür aus dieser unendlichen Menge von möglichen Verteilungsfunktionen diejenige identifiziert werden, die die Verteilung der Grundgesamtheit möglichst gut erfassen oder zumindest approximieren. Je nach Ausprägung der Zufallsvariablen (stetig oder diskret) existieren eine Anzahl von theoretischen Verteilungsfunktionen, mit denen sich eine Vielzahl von Zufallsexperimenten gut beschreiben lassen. Jede dieser theoretischen Verteilungen ist von bestimmten Randbedingungen abhängig die ihre Gültigkeit beschreiben. In der Praxis gilt es dann auf Grund der Ausprägung des Zufallsexperimentes die geeignetste Funktion zu wählen um mit ihr von der Stichprobe auf die Grundgesamtheit zu schließen. 10.1.1. Bernoulli Verteilung Grundlage für die Bernoulli Verteilung ist das Bernoulli Experiment. Als Bernoulli Experiment gilt ein Experiment, wenn ein Zufallsvorgang die folgenden Kriterien erfüllt: 1. Für jeden Versuch gibt es nur zwei mögliche Ausgänge 2. Die Wahrscheinlichkeiten bleiben bei jedem Durchgang gleich 3. Die einzelnen Durchführungen sind unabhängig voneinander Beispiele für Bernoulli Experimente sind: • Münzwurf • Ziehen einer roten oder schwarzen Karte aus einem Kartenspiel Generell ist die Bernoulli Verteilung dann geeignet, wenn lediglich die Wahrscheinlichkeit des Eintreffens (ob oder ob nicht) eines bestimmten Ereignisses untersucht werden soll. Für die Ableitungen der Wahrscheinlichkeiten können die Komponenten eines Bernoulli Experimentes folgendermaßen beschrieben werden: • Für die Ausprägung der Zufallsvariable X gibt es genau zwei mögliche Ausgänge (0,1). • p : Ist die Wahrscheinlichkeit für das Eintreffen: Ausgang = 1 • q = (1-p) : Ist die Wahrscheinlichkeit des Nichteintreffens: Ausgang = 0 10-1 Skript zum Modul 141 - Statistik Die Wahrscheinlichkeitsfunktion ergibt sich somit nach: für ⎧p ⎪ f ( x) = ⎨ q für ⎪ 0 sonst ⎩ X =1 X =0 Der Erwartungswert der Bernoulli Verteilung ergibt sich nach: n µ = E( X ) = ∑ X i ⋅ p = p i =1 Die Varianz der Bernoulli Verteilung ergibt sich nach: n σ = ∑ ( xi − µ )2 ⋅ f ( xi ) = (1 − p ) ⋅ p = p ⋅ q 2 i =1 Beispiele: • Bei einem Münzwurfexperiment soll der Ausgang Kopf als Erfolg gewertet werden. • Aus einem Kartenspiel (32 Blatt) soll ein König gezogen werden. Die Parameter ergeben sich dann wie folgt: Münzwurf Kartenspiel p 0.5 0.125 q 0.5 0.875 µ 0.5 0.125 σ² 0.25 0.109375 10.1.2. Binominal Verteilung Die Binominalverteilung (von lat. „ex binis nominibus“ bed. „aus zwei Ausdrücken“) kann als eine Serie von Bernoulli-Verteilungen aufgefasst werden. Bei der Bernoulli Verteilung war nur von Interesse wie hoch die Wahrscheinlichkeit bei einem einmaligen Versuch war. Die Binominalverteilung dagegen untersucht: „Wie hoch ist die Wahrscheinlichkeit für einen positiven Ausgang bei mehrmaliger Wiederholung des Experimentes, wenn nach jedem Versuch das gezogene Element zurückgelegt wird“ Die klassische Beschreibung dieser Experimente ist das Ziehen einer Kugel aus einer Urne mit Zurücklegen der gezogenen Kugel nach jedem Experiment. Oder kurz ausgedrückt: Ziehen mit Zurücklegen 10-2 Skript zum Modul 141 - Statistik Beispiele für Binominalverteilungen: • Wie hoch ist die Wahrscheinlichkeit bei fünfmaligen Ziehen und anschließendem Zurücklegen aus einem Kartenstapel genau einen König zu erhalten. • Wie hoch ist die Wahrscheinlichkeit bei fünfmaligem Ziehen ein Pik oder mehr zu erhalten. • Geburten in einer Stadt, wobei der Ausgang A die Geburt eines Mädchens sei. • Qualitätskontrolle bei der Serienproduktion mit dem Ausgang A als defektes Produkt. Da bei der Binominalverteilung das Ziehen mit Zurücklegen betrachtet wird, folgt daraus, dass die einzelnen Ausgänge und damit ihre Wahrscheinlichkeiten stochastisch unabhängig sind (vgl. Sitzung 10). Daraus lässt sich die Wahrscheinlichkeitsfunktion der Binominalverteilung ableiten: 1) Die Wahrscheinlichkeit für das Eintreffen von A sei p und 2) Die Wahrscheinlichkeit für das Nichteintreffen sei q = 1 - p 3) Die Anzahl der Versuche sei n 4) Die Anzahl der Realisierungen (= Erfolge) von A sei x Das erste Beispiel lässt sich damit folgendermaßen ausdrücken: p = König = 4/32 = 0.125 q = nicht K = 0.875 n = 5 und x = 1 Die fünf Versuche können dabei unterschiedliche Ausprägungen annehmen um als Erfolg gewertet zu werden. Sie unterscheiden sich in der Frage in welchem Zug der König gezogen wurde. Im Einzelnen sind folgende Versuchsausgänge möglich (K = König; nK = kein König): K, nK, nK, nK, nK oder nK, K, nK, nK, nK oder nK, nK, K, nK, nK oder nK, nK, nK, K, nK oder nK, nK, nK, nK, K Daraus ergeben sich die Wahrscheinlichkeiten: K, nK, nK, nK, nK = 0.125, 0.875, 0.875, 0.875, 0.875 Bei stochastischer Unabhängigkeit ergibt sich somit für die Wahrscheinlichkeit eines Ausgangs der fünf möglichen: W1 = 0.125 ⋅ 0.875 ⋅ 0.875 ⋅ 0.875 ⋅ 0.875 = 0.125 ⋅ 0.875 4 = 0.07328 10-3 Skript zum Modul 141 - Statistik Da alle fünf Ausgänge gleichwahrscheinlich sind ergibt sich als Gesamtwahrscheinlichkeit: Wges = 0.07328 · 5 = 0.366 Bei fünfmaligem Ziehen einer Karte aus einem Kartenspiel und Zurücklegen nach jedem Zug ist die Wahrscheinlichkeit genau einen König zu ziehen 0.366 oder 37%. Für das zweite Beispiel, bei fünfmaligem Ziehen mindestens 1 Pik oder mehr zu erhalten, ergibt sich: p = Pik = 1/4 = 0.25 und q = nicht Pik = 0.75 n = 5 und x = 1 Für ein Pik: 5 · 0.25 · 0.754 = 0.396 Für zwei Pik: 10 · 0.25² · 0.753 = 0.264 Für drei Pik: 10 · 0.253 · 0.75² = 0.088 Für vier Pik: 5 · 0.254 · 0.75 = 0.015 Für fünf Pik: 1 ·0.255 = 0.001 Damit sind die Funktionswerte f(x) der Wahrscheinlichkeitsfunktion der Binominalverteilung für dieses Experiment gefunden. Die mathematische Abstraktion dieser Funktionswerte ergibt für die Binominalverteilungsfunktion folgende Gleichung: f ( x | n; p ) = ⎛n⎞ n! p x ⋅ q n − x = ⎜⎜ ⎟⎟ p x ⋅ q n − x x!(n − x)! ⎝ x⎠ Die Wahrscheinlichkeit 3 Pik bei 5 Zügen mit Zurücklegen zu erhalten ergibt sich damit nach: f (3 | 5;0.25) = 5! 0.253 ⋅ 0.755−3 3!(5 − 3)! 120 ⋅ 0.015625 ⋅ 0.5625 6⋅2 = 0.08784 = Die Wahrscheinlichkeit genau 3 Pik zu ziehen beträgt also 0.08784 oder 8.8%. Durch Kumulieren der Einzelwahrscheinlichkeiten für die verschiedenen Ausprägungen, ergibt sich die Verteilungsfunktion F(x) der Binominalverteilung des Beispieles. 10-4 Skript zum Modul 141 - Statistik Wahrscheinlichkeitsfunktion f(x): 0.5 0.4 f(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 5 Anzahl der günstigen Ausgänge Verteilungsfunktion F(x): 1.0 0.8 F(x) 0.6 0.4 0.2 0.0 0 1 2 3 4 5 Anzahl der günstigen Ausgänge Der Erwartungswert µ der Binominalverteilung berechnet sich nach: n n x =0 x =0 ⎛n⎞ ⎝ x⎠ µ = ∑ x ⋅ f ( x) = ∑ x ⋅ ⎜⎜ ⎟⎟ p x q n − x Da die Einzelausprägungen der Binominalverteilung als Bernoulli Experiment (E(x) = p) betrachtet werden können, kann E(x) auch einfacher berechnet werden als: n µ = ∑ p = np x =0 Die Varianz σ² der Binominalverteilung ergibt sich nach: n σ = ∑ p⋅q = n⋅ p⋅q 2 x =0 10-5 Skript zum Modul 141 - Statistik 10.1.3. Hypergeometrische Verteilung Im Gegensatz zur Binominalverteilung, die den mehrmaligen Versuch mit Zurücklegen beschreibt, wird durch die Hypergeometrische Verteilung die Wahrscheinlichkeit für die mehrmalige Wiederholung des Versuches ohne Zurücklegen der gezogenen Elemente betrachtet. „Wie hoch ist die Wahrscheinlichkeit für einen positiven Ausgang bei mehrmaliger Wiederholung des Experimentes ohne Zurücklegen der Elemente“ Die klassische Beschreibung dieser Experimente ist das Ziehen einer Kugel aus einer Urne ohne Zurücklegen der gezogenen Kugel nach jedem Experiment. Oder kurz ausgedrückt: Ziehen ohne Zurücklegen Beispiele: • Wie hoch ist die Wahrscheinlichkeit beim Ziehen von fünf Karten aus einem Kartenstapel einen König zu erhalten. • Wie hoch ist die Wahrscheinlichkeit beim Ziehen von fünf Karten ein Pik oder mehr zu erhalten. • Wie hoch ist die Wahrscheinlichkeit 6 Richtige im Lotto zu haben. Im Gegensatz zur Binominalverteilung, die von zwei Parametern (n, p) abhängig war, ist die Hypergeometrische Verteilung von 3 Parametern abhängig: N : Gesamtzahl aller Elemente M : Anzahl der Günstigen in N n : Anzahl der Versuche Für das erste Beispiel ergeben sich folgende Parameter: N = 32; M = 4; n = 5 Die Wahrscheinlichkeit einen König zu ziehen (x = 1) berechnet sich mit diesen Parametern nach: ⎛ M ⎞⎛ N − M ⎞ ⎛ 4 ⎞⎛ 32 − 4 ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ x n x − − 1 5 1 ⎠ = ⎝ ⎠⎝ ⎠ = 0.407 f ( x = 1) = ⎝ ⎠⎝ ⎛N⎞ ⎛ 32 ⎞ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ n ⎝ ⎠ ⎝5⎠ Die allgemeine Form der Wahrscheinlichkeitsfunktion ist somit: ⎧ ⎛ M ⎞⎛ N − M ⎞ ⎟⎟ ⎪ ⎜⎜ ⎟⎟⎜⎜ x n x − ⎠ ⎪⎪ ⎝ ⎠⎝ f ( x) = ⎨ ⎛N⎞ ⎜⎜ ⎟⎟ ⎪ ⎝n⎠ ⎪ ⎪⎩ 0 für max(0, n − M − N ) ≤ x ≤ min(n, M ) sonst 10-6 Skript zum Modul 141 - Statistik Daraus ergeben sich die Wahrscheinlichkeiten keinen, einen, zwei, drei oder vier Könige ohne Zurücklegen zu ziehen: f(0) = 0.488 f(1) = 0.407 f(2) = 0.098 f(3) = 0.008 f(4) = 0.00014 Das ist die gleiche Wahrscheinlichkeit die beim Ziehen von fünf Karten auf einmal resultieren würde. Der Erwartungswert E(x) ist gleich dem Erwartungswert der Binominalverteilung, obwohl unterschiedliche Voraussetzungen vorliegen. Er berechnet sich nach: n µ = ∑ p = np = n x =0 M N Die Varianz σ² dagegen berechnet sich unterschiedlich nach: σ 2 = n ⋅ p ⋅ (1 − p ) ⋅ M ⎛ M ⎞ N −n N −n = n ⋅ ⋅ ⎜1 − ⎟ ⋅ N −1 n ⎝ N ⎠ N −1 Für das Beispiel ergibt sich µ und σ² nach: µ =n M 4 = 5 = 0.625 N 32 σ 2 = 5⋅ 4 ⎛ 4 ⎞ 32 − 5 ⋅ ⎜1 − ⎟ ⋅ = 0.476 32 ⎝ 32 ⎠ 32 − 1 Die Verteilungsfunktion F(x) ergibt sich wieder aus den kumulierten Wahrscheinlichkeiten der Einzelwahrscheinlichkeiten: Wahrscheinlichkeitsfunktion f(x) 0.6 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 0 1 2 Anzahl der Günstigen 10-7 3 4 Skript zum Modul 141 - Statistik Verteilungsfunktion F(x) 1.0 0.8 F(x) 0.6 0.4 0.2 0.0 0 1 2 3 4 Anzahl der Günstigen 10.2. Stetige theoretische Verteilungen Im Gegensatz zu den diskreten Verteilungen können bei stetigen Verteilungen die Wahrscheinlichkeiten unendlich viele Realisationen innerhalb des Wertebereiches annehmen. Je nach Ausprägung der Zufallsvariablen existieren eine Anzahl von theoretischen Verteilungsfunktionen, mit denen sich eine Vielzahl von Zufallsexperimenten gut beschreiben lassen. Jede dieser theoretischen Verteilungen ist von bestimmten Randbedingungen abhängig, die ihre Gültigkeit beschreiben. In der Praxis gilt es dann auf Grund der Ausprägung des Zufallsexperimentes die geeignetste Funktion zu wählen um mit ihr von der Stichprobe auf die Grundgesamtheit zu schließen. 10.2.1. Normalverteilung Die wohl wichtigste Verteilung der Statistik ist die Normalverteilung, die von Moivre, Laplace und Gauß entwickelt wurde. Sie wird häufig auch Gaußsche Glockenkurve genannt. Sie eignet sich als Verteilungsmodell immer dann, wenn Abweichungen von einem Norm-, Soll- oder Durchschnittswert betrachtet werden. Außerdem sind sehr viele in der Natur vorkommende Ausprägungen von Merkmalen normalverteilt. Beispiele: • Größe der Blätter eines Baumes • Abweichung der Korngrößen einer Bodenprobe von der mittleren Korngröße • Abweichung der Tagestemperatur vom langjährigen Mittelwert. 10-8 Skript zum Modul 141 - Statistik Die Dichtefunktion der Normalverteilung berechnet sich anhand von zwei Parametern a und b nach: 1 ⎛ x−a ⎞ ⎟ b ⎠ 2 − ⎜ 1 f ( x) = ⋅ e 2⎝ b ⋅ 2π Die beiden Parameter a und b besitzen eine besondere Eigenschaft, die sich bei der Berechnung des Erwartungswertes und der Standardabweichung aus den Funktionswerten zeigt. Hier ergibt sich: µ = E( X ) = a und σ =b Damit kann die Dichtefunktion auch folgendermaßen geschrieben werden: f ( x) = 1 σ ⋅ 2π ⋅e 1 ⎛ x−µ ⎞ − ⎜ ⎟ 2⎝ σ ⎠ 2 Dadurch kann die Wahrscheinlichkeit für jeden beliebigen Wert leicht aus dem Mittelwert und der Standardabweichung, wenn diese bekannt sind, berechnet werden. Die Normalverteilung besitzt folgende Kennzeichen, die auch in der folgenden Abbildung graphisch dargestellt sind: 1. Median, Modus und Mittelwert fallen zusammen 2. Die steilsten Kurvenverläufe liegen bei µ-σ und µ+σ 3. Die Tangenten an diesen Punkten schneiden die X-Achse bei µ+2σ und µ2σ 4. 68% aller Fälle liegen im Bereich von µ-σ und µ+σ; 95.5% der Fälle zwischen µ-2σ und µ+2σund 99.7% zwischen µ-3σ und µ+3σ µ-σ µ+σ 1 µ = 2; σ = 0.5 0.9 f(x) F(x) 0.8 0.7 0.6 68% der Fälle 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 10-9 3 3.5 4 Skript zum Modul 141 - Statistik Form und Lage der NV werden durch µ und σ eindeutig beschrieben. Wobei µ die Lage bezüglich der X-Achse und σ die Breite der Kurve bestimmt. 0.9 µ = 2; s = 0.5 µ = 2; s = 1 µ = 2; s = 2 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -4 -2 0 2 4 6 Beispiel für die Anwendung der Normalverteilung: Für eine Klimastation sind über einen Zeitraum von 50 Jahren jährliche Niederschlagsmengen bestimmt worden. Die empirische Verteilung der Niederschlagsmengen entsprach einer Normalverteilung. Die mittlere Niederschlagsmenge lag bei 400 mm, die Standardabweichung der Messungen wurde mit 100 mm berechnet. 1. In wie viel % der Jahre fällt ein Niederschlag von weniger als 300 mm? 2. In wie viel % der Jahre fällt ein Niederschlag von mehr als 425 mm? 3. Welche Niederschlagsmenge wird in 95% der Jahre übertroffen? Zur Lösung der Aufgaben 1 und 2 müssen also die Flächen unter der Dichtefunktion bestimmt werden. Hierzu muss die Verteilungsfunktion F(x) für x = 300 bzw. x = 425 bestimmt werden, nach: F ( x) = 1 σ ⋅ 2π x ∫e 1 ⎛ x−µ ⎞ − ⎜ ⎟ 2⎝ σ ⎠ 0.0045 0.004 0.0035 0.003 0.0025 0.002 2 dx −∞ Das Problem dabei ist, dass sich das Integral nicht analytisch lösen lässt, weil hierfür keine elementare Stammfunktion existiert. 0.0015 0.001 0.0005 0 0 100 200 300 400 500 600 700 800 900 Die Fläche müsste also durch numerische Integration bestimmt werden. Alternativ können für die Lösung die Funktionswerte der Standardnormalverteilung, die in Tabellen vorliegen, eingesetzt werden. Hierzu muss die Normalverteilung in eine Standardnormalverteilung überführt werden. 10-10 Skript zum Modul 141 - Statistik 10.2.2. Standard Normal Verteilung Für die Standardnormalverteilung gelten folgende Kennwerte: 1. Ihr Erwartungswert µ ist gleich 0 und 2. Ihre Standardabweichung σ ist gleich 1 0.45 1.0 0.40 0.9 f(x) F(x) 0.35 0.8 0.7 0.30 0.6 0.25 0.5 0.20 0.4 0.15 0.3 0.10 0.2 0.05 0.1 0.00 0.0 -3 -2 -1 0 1 2 3 Die Funktionswerte f(x) und F(x) der Standardnormalverteilung liegen in tabellierter Form vor, so dass die aufwändige Berechnung entfällt. Zu ihrer Nutzung muss also lediglich eine beliebige Normalverteilung in die Standardnormalverteilung überführt werden, dann können die Wahrscheinlichkeiten einfach bestimmt werden. Die Überführung einer beliebigen Normalverteilung in die Standardnormalverteilung erfolgt durch die Transformation der normalverteilten Zufallsvariablen X in eine standardnormalverteilte Zufallsvariable Z nach: Z= X −µ σ Die Dichte- und Verteilungsfunktion der standardnormalverteilten Variable Z haben die einfache Form: x2 f ( x) = − 1 ⋅e 2 2π F ( z) = 10-11 1 2π x ∫e −∞ − x2 2 dx Skript zum Modul 141 - Statistik Die Werte von F(z) [=Φ(z)] können direkt aus Tabellen entnommen werden: Beispiel für die Anwendung: Für eine Klimastation sind über einen Zeitraum von 50 Jahren jährliche Niederschlagsmengen bestimmt worden. Die empirische Verteilung der Niederschlagsmengen entsprach einer Normalverteilung. Die mittlere Niederschlagsmenge lag bei 400 mm, die Standardabweichung der Messungen wurde mit 100 mm berechnet. 1. In wie viel % der Jahre fällt ein Niederschlag von weniger als 300 mm? 2. In wie viel % der Jahre fällt ein Niederschlag von mehr als 425 mm? 3. Welche Niederschlagsmenge wird in 95% der Jahre übertroffen? Zur Berechnung muss die Normalverteilung zunächst in eine Standardnormalverteilung transformiert werden, dann die Wahrscheinlichkeiten bzw. Anteile berechnet werden und dann die Werte gegebenenfalls rücktransformiert werden. Gegeben ist: µ = 400 (der Mittelwert); σ = 100 (die Standardabweichung) und der Niederschlag ist normalverteilt. Zu 1.) Wie hoch ist die Wahrscheinlichkeit P (x ≤ 300): • Standardisierung von X: Z= X −µ σ = 300 − 400 = −1 100 10-12 Skript zum Modul 141 - Statistik • Bestimmung von F(-1) aus der Tabelle der SNV Da in den Tabellen meist nur die positive Hälfte der SNV gelistet ist müssen negative Werte als 1 – F(positiv) abgelesen werden. Für das Beispiel also: = 1 – F(1) = 1 – 0.8413 = 0.1587 In 15.87% der Jahre ist N kleiner 300 mm/a Zu 2.) Wie hoch ist die Wahrscheinlichkeit P (x > 425) • Standardisierung von X: Z= • X −µ σ = 425 − 400 = 0.25 100 Bestimmung von F(0.25) aus der Tabelle der SNV F(0.25) = 0.5987 Da ja der Wert größer als gesucht war folgt: in 40.13% (1 0.5987) der Jahre war der Niederschlag größer als 425 mm/a. zu 3.) Gesucht ist x für eine Wahrscheinlichkeit von P = 0.05. Da ja die Menge die in 95% übertroffen wird gesucht ist. Da in den Tabellen nur die Wert größer 0.5 gelistet sind muss aber der Wert Z von F(0.95) abgelesen und dann negiert werden. Außerdem finden wir in manchen Tabellen 95 nicht direkt sondern nur Werte in der Nähe. Der Wert wird dann durch Mittelwertbildung bestimmt. Für das Beispiel finden wir Z für F(0.95) als Mitte zwischen 0.9495 und 0.9505 also 1.645. Daraus folgt für F(0.05) Z = -1.645 10-13 Skript zum Modul 141 - Statistik Das bedeutet 95% der Werte der SNV sind größer als -1.645. Zur Bestimmung der Niederschlagsmenge muss dieser Wert nur noch retransformiert werden nach: X = Z ⋅ σ + µ = −1.645 ⋅ 100 + 400 = 235.5 In 95% aller Jahre liegt der Niederschlag über 235.5 mm/a. 10.3. Übungsaufgaben Aufgabe 1: Gegeben sei eine Familie mit vier Kindern, wobei die Wahrscheinlichkeit für die Geburt eines Jungen ½ sei: a) Welche theoretische Verteilung liegt dem Sachverhalt zugrunde? Begründen Sie Ihre Antwort. b) Bestimmen Sie die Wahrscheinlichkeit, dass es darin wenigstens einen Jungen. c) und wenigstens einen Jungen und ein Mädchen gibt. Aufgabe 2: Bei einem Herstellungsprozess für Bolzen wird festgestellt, dass eine Maschine 20% Ausschuss produziert. Bestimmen Sie die Wahrscheinlichkeit, dass von vier zufällig ausgewählten Bolzen: a) 1 b) 2 c) höchstens 2 unbrauchbar sind. Bestimmen Sie (plus kurze Beschreibung): d) den Mittelwert (µ) und e) die Standardabweichung bei einer Gesamtmenge von 400 Bolzen. Aufgabe 3: Ein Kraftfahrzeughändler weiß aus jahrelanger Erfahrung, dass von den in Zahlung genommenen Wagen 15% geringe, 60% mittelschwere und 25% sehr schwere Schäden aufweisen. Bestimmen Sie die Wahrscheinlichkeit, dass von den nächsten 20 Wagen, die er in Zahlung nehmen wird: b) höchstens 8 sehr schwere c) höchstens 8 mittelschwere d) genau 10 geringe e) genau 10 mittelschwere f) mindestens 12 geringe g) mindestens 12 sehr schwere Schäden vorliegen. 10-14 Skript zum Modul 141 - Statistik Aufgabe 4: Bei einer Abschlussklausur in Mathematik ergab sich eine mittlere Punktzahl von 72 und eine Standardabweichung von 15. Bestimmen Sie die Standardwerte (d.h. die Punktzahlen in Einheiten der Standardnormalverteilung) der Studenten, die folgende Punktzahlen erreichten: a) 60 b) 93 c) 72 Aufgabe 5: Bestimmen und skizzieren Sie die Fläche unter der Normalverteilung, mit Hilfe der Tabelle 1 für die Fälle: a) zwischen z = 0 und z = 1.2 b) zwischen z = -0.68 und z = 0 c) zwischen z = -0.46 und z = 2.21 d) rechts von z = -1.28 e) links von z = -0.6 Aufgabe 6: Ein Händler will zu Sylvester 25 Feuerwerkskörper, die ihm aus früheren Jahren übrig geblieben sind, loswerden. Er verspricht einem daran interessierten Kunden, dass mindestens 60% davon noch funktionieren. Dieser verlangt, 5 der 25 Feuerwerkskörper sofort ausprobieren zu dürfen, und er ist bereit, die restlichen 20 dann zu kaufen, wenn mindestens 3 der fünf geprüften funktionieren. Der Händler ist damit einverstanden. Wie groß ist die Wahrscheinlichkeit, dass das Geschäft zustande kommt, wenn tatsächlich: a) 60% b) 80% c) 20% der 25 Feuerwerkskörper noch funktionieren. Aufgabe 7: Die mittlere Länge von 500 Lorbeerblättern ist 151 mm und die Standardabweichung ist 15 mm. Wenn sie die Länge als normalverteilt annehmen, dann bestimmen Sie, wie viele Lorbeerblätter: a) Welche Verteilungsfunktion legen Sie zugrunde. b) zwischen 115 und 145 mm lang sind c) über 183 mm lang sind. 10-15 Skript zum Modul 141 - Statistik 10.4. Musterlösung zu den Übungsaufgaben Aufgabe 1: Gegeben sei eine Familie mit vier Kindern, wobei die Wahrscheinlichkeit für die Geburt eines Jungen ½ sei. (PS: Übrigens die gleiche Aufgabe wie die Pegel vom letzten Mal) b) Welche theoretische Verteilung liegt dem Sachverhalt zugrunde? Begründen Sie Ihre Antwort. Lösung: Man geht von einer unabhängigen Verteilung aus. D.h. die Wahrscheinlichkeit für das Geschlecht des zweiten oder dritten Kindes ist nicht abhängig vom Geschlecht seiner älteren Geschwister. Da die Variable Geschlecht eine typische 0,1 Ausprägung besitzt kann von einer Binominalverteilung mit vier Versuchen (n) ausgegangen werden. c) Bestimmen Sie die Wahrscheinlichkeit, dass es darin wenigstens einen Jungen. Lösung: p = 0.5; q = 0.5, x = 1, n = 4 ⎛ 4⎞ 4! 24 f (1) = ⎜ ⎟ 0.51 ⋅ 0.53 = ⋅ 0.5 ⋅ 0.125 = ⋅ 0.0625 = 0.25 1!⋅ 3! 6 ⎝1⎠ Die Wahrscheinlichkeit, dass es genau einen Jungen gibt beträgt also 25%. Da aber nach wenigstens einem Jungen gefragt war sind auch die Wahrscheinlichkeiten für f(2), f(3) oder f(4) gültig. Diese Berechnen sich analog. Die Gesamtwahrscheinlichkeit beträgt also f(1) + f(2) + f(3) + f(4). Um den Rechenaufwand zu minimieren kann auch vereinfacht 1 – f(0) berechnet werden. Daraus ergibt sich die Wahrscheinlichkeit für mindestens einen Jungen als 1 -0.0625 = 0.9375, also 93.75% d) und wenigstens einen Jungen und ein Mädchen gibt. Lösung: Die möglichen Familienzusammensetzungen sind: (J, M, J, J) oder (J, M, M, M) oder (J, M, J, M). Im Sinne der BNV (wenn die Geburt eines Jungen als Erfolg angenommen wird ☺) ist dies also: f(1) = 0.25 oder f(2) = 0.375 oder f(3) = 0.25. Da die Ereignisse unabhängig sind ergibt sich die Gesamtwahrscheinlichkeit nach p = f(1) + f(2) + f(3) = 0.875. Die Wahrscheinlichkeit, dass es wenigsten einen Jungen und ein Mädchen gibt beträgt also 87.5%. 10-16 Skript zum Modul 141 - Statistik Aufgabe 2: Bei einem Herstellungsprozess für Bolzen wird festgestellt, dass eine Maschine 20% Ausschuss produziert. Bestimmen Sie die Wahrscheinlichkeit, dass von vier zufällig ausgewählten Bolzen 1, 2 oder höchstens 2 unbrauchbar sind. Lösung: Auch hier kann wieder von einer Binominalverteilung ausgegangen werden, da bei einem Herstellungsprozess von einer sehr große Stückzahl ausgegangen werden kann und sich dadurch die Wahrscheinlichkeiten bei den einzelnen Versuchen nicht ändern. Die Parameter ergeben sich danach als: p = 0.2, q = 0.8, n = 4 a) ⎛ 4⎞ 4! 24 f (1) = ⎜ ⎟ 0.21 ⋅ 0.83 = ⋅ 0.2 ⋅ 0.512 = ⋅ 0.1024 = 0.4096 1!⋅ 3! 6 ⎝1⎠ Die Wahrscheinlichkeit, dass ein Bolzen defekt ist beträgt 40.96% b) ⎛ 4⎞ 4! 24 f (2) = ⎜ ⎟ 0.22 ⋅ 0.82 = ⋅ 0.04 ⋅ 0.64 = ⋅ 0.0256 = 0.1536 2!⋅ 2! 4 ⎝ 2⎠ Die Wahrscheinlichkeit, dass zwei Bolzen defekt sind beträgt 15.36% c) f(0) + f(1) + f(2) = 0.4096 + 0.4096 + 0.1536 = 0.9728 Die Wahrscheinlichkeit, dass höchstens zwei Bolzen defekt sind beträgt 97.28% Bestimmen Sie (plus kurze Beschreibung): d) den Mittelwert (µ) und Der Mittelwert µ der Binominalverteilung berechnet sich nach: µ = n * p = 400 * 0.2 = 80 Bei einer Entnahme von 400 Bolzen aus der Produktion kann davon ausgegangen werden, dass 80 defekt sind. e) die Standardabweichung bei einer Gesamtmenge von 400 Bolzen. Die Varianz der BNV berechnet sich nach: σ² = n * p * q = 400 * 0.2 * 0.8 = 64 Die Standardabweichung beträgt also 8. Bei einer Entnahme von 400 Bolzen aus der Produktion kann davon ausgegangen werden, dass 80 ± 8 defekt sind. Aufgabe 3: Ein Kraftfahrzeughändler weiß aus jahrelanger Erfahrung, dass von den in Zahlung genommenen Wagen 15% geringe, 60% mittelschwere und 25% sehr schwere Schäden aufweisen. Bestimmen Sie die Wahrscheinlichkeit, dass von den nächsten 20 Wagen, die er in Zahlung nehmen wird: Lösung: Auch hier kann die BNV genutzt werden, allerdings in verschiedener Ausprägung, nämlich mit BNV(0.15, 20) für geringe Schäden, BNV(0.6, 20) für mittelschwere und BNV(0.25, 20) für sehr schwere Schäden. Hiermit ist dann die Berechnung der einzelnen Teilaufgaben einfach: a) höchstens 8 sehr schwere 10-17 Skript zum Modul 141 - Statistik Lösung: F(8) (Summe der Wahrscheinlichkeiten von 0..8) der BNV(0.25, 20) also f(0) + f(1) + f(2) + ... + f(8) = 0.9591 Die Wahrscheinlichkeit beträgt also 95.91% b) höchstens 8 mittelschwere Lösung: F(8) (Summe der Wahrscheinlichkeiten von 0..8) der BNV(0.6, 20) also f(0) + f(1) + f(2) + ... + f(8) = 0.0565 Die Wahrscheinlichkeit beträgt also 5.65% c) genau 10 geringe Lösung: f(10) für BNV(0.15,20) = 0.0002 also 0.02% d) genau 10 mittelschwere Lösung: f(10) für BNV(0.6,20) = 0.1171 also 11.71% e) mindestens 12 geringe Lösung: 1 – F(12) für BNV(0.15,20) = 0.00000053 f) mindestens 12 sehr schwere Schäden vorliegen. Lösung: 1 – F(12) für BNV(0.25,20) = 0.00018370 Aufgabe 4: Bei einer Abschlussklausur in Mathematik ergab sich eine mittlere Punktzahl von 72 und eine Standardabweichung von 15. Bestimmen Sie die Standardwerte (d.h. die Punktzahlen in Einheiten der Standardnormalverteilung) der Studenten, die folgende Punktzahlen erreichten: Lösung: Gegeben ist ein Normalverteilung mit den Parametern µ = 72 und σ = 15. In Kurzform NV(72,15). Gesucht sind Werte der Standardnormalverteilung, mit anderen Worten eine einfache Variablentransformation. a) 60 Z = b) 93 c) 72 X − µ 60 − 72 = = −0.8 σ 15 Z = 1.4 Z = 0 (=Mittelwert der NV und der SNV) Aufgabe 5: Bestimmen und skizzieren Sie die Fläche unter der Normalverteilung, mit Hilfe der Tabelle 1 für die Fälle: a) zwischen z = 0 und z = 1.2 Lösung: 0.8849 – 0.5 = 0.3849 b) zwischen z = -0.68 und z = 0 Lösung: (0.5 – (1 – f(0.68)) = 0.5 – (1 - 0.7517) = 0.2517 c) zwischen z = -0.46 und z = 2.21 Lösung: (0.9864 – (1 – f(0.46))) = 0.9864 – 0.3228 = 0.6636 d) rechts von z = -1.28 Lösung: (1 – (1 - f(1.28)) = 1 – 0.1003 = 0.8997 10-18 Skript zum Modul 141 - Statistik e) links von z = -0.6 Lösung: (1 – f(0.6)) = 0.2743 Aufgabe 6: Ein Händler will zu Sylvester 25 Feuerwerkskörper, die ihm aus früheren Jahren übrig geblieben sind, loswerden. Er verspricht einem daran interessierten Kunden, dass mindestens 60% davon noch funktionieren. Dieser verlangt, 5 der 25 Feuerwerkskörper sofort ausprobieren zu dürfen, und er ist bereit, die restlichen 20 dann zu kaufen, wenn mindestens 3 der fünf geprüften funktionieren. Der Händler ist damit einverstanden. Wie groß ist die Wahrscheinlichkeit, dass das Geschäft zustande kommt, wenn tatsächlich 60%, 80%, 20% der 25 Feuerwerkskörper noch funktionieren. Lösung: Hier handelt es sich ganz klar um „Ziehen ohne Zurücklegen“ es ist ja nach testen der Feuerwerkskörper nichts mehr da zum Zurücklegen. Gegeben sind also die Parameter: N = 25, n = 5, x = 3. M variiert je nach Teilaufgabe. a) 60%: M = 25 * 0.6 = 15 Gesucht: p(x ≥ 3) ⎛15 ⎞⎛10 ⎞ ⎛ 15 ⎞⎛10 ⎞ ⎛ 15 ⎞⎛ 10 ⎞ ⎜ 3 ⎟⎜ 2 ⎟ + ⎜ 4 ⎟⎜ 1 ⎟ + ⎜ 5 ⎟⎜ 0 ⎟ f (3) + f (4) + f (5) = ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎛ 25 ⎞ ⎜5⎟ ⎝ ⎠ 455 ⋅ 45 + 1365 ⋅ 10 + 3003 ⋅ 1 37128 = = = 0.6988 53130 53130 Hier wäre der Kunde zufrieden, da mit einer Wahrscheinlichkeit von 69.88 % 3 der fünf Feuerwerkskörper funktionieren würden. b) 80%: M = 25 * 0.8 = 20 Gesucht: p(x ≥ 3) ⎛ 20 ⎞⎛ 5 ⎞ ⎛ 20 ⎞⎛ 5 ⎞ ⎛ 20 ⎞⎛ 5 ⎞ ⎜ 3 ⎟⎜ 2 ⎟ + ⎜ 4 ⎟⎜ 1 ⎟ + ⎜ 5 ⎟⎜ 0 ⎟ f (3) + f (4) + f (5) = ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎛ 25 ⎞ ⎜5⎟ ⎝ ⎠ = 1140 ⋅ 10 + 4845 ⋅ 5 + 15504 ⋅ 1 51129 = = 0.9623 53130 53130 Hier wäre der Kunde zufrieden, da mit einer Wahrscheinlichkeit von 96.23 % drei der fünf Feuerwerkskörper funktionieren würden. c) 20%: M = 25 * 0.2 = 5 Gesucht: p(x ≥ 3) 10-19 Skript zum Modul 141 - Statistik ⎛ 5 ⎞⎛ 20 ⎞ ⎛ 5 ⎞⎛ 20 ⎞ ⎛ 5 ⎞⎛ 20 ⎞ ⎜ 3 ⎟⎜ 2 ⎟ + ⎜ 4 ⎟⎜ 1 ⎟ + ⎜ 5 ⎟⎜ 0 ⎟ f (3) + f (4) + f (5) = ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎛ 25 ⎞ ⎜5⎟ ⎝ ⎠ = 10 ⋅ 190 + 5 ⋅ 20 + 1 ⋅ 1 2001 = = 0.0377 53130 53130 Hier wäre der Kunde mit Sicherheit nicht zufrieden, da nur mit einer Wahrscheinlichkeit von 3.77 % drei der fünf Feuerwerkskörper funktionieren würden. Aufgabe 7: Die mittlere Länge von 500 Lorbeerblättern ist 151 mm und die Standardabweichung ist 15 mm. Wenn sie die Länge als normalverteilt annehmen, dann bestimmen Sie, wie viele Lorbeerblätter: a) Welche Verteilungsfunktion legen Sie zugrunde. Es liegt eine Normalverteilung mit µ = 151 und σ = 15 vor. b) zwischen 115 und 145 mm lang sind. Lösung: Zunächst Transformation der Werte der NV(151,15) in eine SNV Z= X − µ 115 − 151 = = −2.4 σ 15 Z= X − µ 145 − 151 = = −0.4 15 σ Dann wird mit diesen Werten die Fläche unter der SNV mit der Tabelle bestimmt nach F(-2.4 ≤ Z ≤ -0.4) = F(-0.4) – F(-2.4) = 0.3446 – 0.0082 = 0.3364 Das bedeutet 33.64% der Werte liegen zwischen den Grenzen. Da die Stichprobe 500 betrug haben also 168 Lorbeerblätter eine Größe zwischen 115 und 145 mm. c) über 183 mm lang sind. Lösung: Gesucht die Fläche unter der Verteilung rechts von 183 mm. Die Transformation ergibt: Z = X − µ 184 − 151 = = 2.2 σ 15 Damit kann der Wert der SNV an dieser Stelle aus der Tabelle abgelesen werden: F(2.2) = 0.9861 da aber der Bereich rechts davon gesucht war muss noch von 1 abgezogen werden 1 – 0.9861 = 0.0139. Es sind also 1.39 % der Lorbeerblätter größer als 183 mm, das sind insgesamt 7 Blätter. 10-20