C. Lerch-Reisp Grundlagen Statistik Wahrscheinlichkeitsrechnung und Statistik 1) Grundbegriffe der Statistik 1.1 Einleitung Statistische Methoden dienen zur Beurteilung von Messungen oder Zählungen, kurz Beobachtungen genannt, wie sie uns im täglichen Leben vielfach begegnen. Aufgabe der beschreibenden Statistik ist es, numerische Ergebnisse einer Untersuchung (z.B. einer Messreihe oder Umfrage) zu sammeln und so zweckmäßig aufzubereiten, dass sie mit anderen Ergebnissen vergleichbar ist. Ein wesentliches Problem der Statistik besteht darin, von einer Auswahl aus einer Grundgesamtheit, einer sogenannten Stichprobe, auf die Grundgesamtheit selbst zu schließen. Die beurteilende Statistik ermöglicht mit Hilfe der Wahrscheinlichkeitsrechnung, Schlüsse aus den Resultaten der beschreibenden Statistik zu ziehen. Im Idealfall erstreckt sich eine statistische Erhebung auf alle Individuen der zu untersuchenden Grundgesamtheit. Nun ist aber aus Kostengründen in den wenigsten Fällen die Untersuchung eines bestimmten Merkmals bei allen Merkmalsträgern möglich. Meistens wird man sich mit der Untersuchung einer repräsentativen Stichprobe zufrieden geben müssen. 1.2 Absolute und relative Häufigkeiten Bei der Durchführung einer statistischen Erhebung werden zunächst alle Ereignisse in einer sogenannten Urliste notiert, bevor sie aufbereitet werden. Die Anzahl der verschiedenen Merkmalsausprägungen zählt man nach der durchgeführten Erhebung zusammen. Die Anzahl der Stichprobenwerte von ein und derselben Merkmalsausprägung h a nennt man absolute Häufigkeit h a dieser Merkmalsausprägung. Beispiel: Wir betrachten 6 verschiedene Produkte. Es sollen die Verbräuche der Materialien ermittelt werden. Dazu registriert man über einen gewissen Zeitraum z.B. ein halbes Jahr die Lagerentnahmen. In der nachfolgenden Tabelle sind die mengen- und wertmäßigen Verbräuche (absoluten Häufigkeiten) aufgelistet. 1 C. Lerch-Reisp Grundlagen Statistik Spalte1 Material Spalte2 Spalte3 Verbrauch in Stk. Wert in € A B C D E F Material: Verbrauch Wert: 150 50 150 200 100 175 150 150 450 450 100 262,5 Spalte4 % Verbrauch 18,18 6,06 18,18 24,24 12,12 21,21 Spalte5 % Wert 12,37 2,37 37,11 8,24 8,24 21,18 Merkmalsträger Merkmal Merkmal Die absoluten Häufigkeiten, die den Zahlenwerten entsprechen, sind die Merkmalsausprägungen. Das Verhältnis der absoluten Häufigkeit h a eines Stichprobenwertes (Merkmalsausprägung) zu dem Gesamtumfang n der Stichprobe nennt man relative Häufigkeit. hr ha n Multipliziert man den Zahlenwert der relativen Häufigkeit mit 100%, so ergibt sich die prozentuale Darstellung der relativen Häufigkeit. h h p a 100% n Die Summe aller relativen Häufigkeiten in einer statistischen Erhebung ist gleich 1. Eine Statistik soll dem Betrachter auch eine optische Information über die Daten geben. Deswegen verwendet man auch Diagramme, sogenannte Histogramme. Dies kann sein, z.B. ein Stabdiagramm, Säulendiagramm oder Kreisdiagramm. Beispiel: einfügen 2 C. Lerch-Reisp Grundlagen Statistik 1.3 Statistische Kennzahlen Modalwert, Median und Mittelwert Der Modalwert (mode) ist der am häufigsten vorkommende Wert. Zum Medianwert (median) oder auch Zentralwert gehört die Häufigkeitssumme 0,5 bzw.50% Zum unteren und oberen Quartil gehören die Häufigkeitssummen 25 bzw. 50% Das arithmetische Mittel x ergibt sich aus der Division der Summe aller Stichprobenwerte durch den Stichprobenumfang. n xi 1 n xi n i1 i 1 n x Bei der Grundgesamtheit wird der Mittelwert mit bezeichnet. Die mittlere quadratische Abweichung s² gibt ein Maß für die Verteilung der einzelnen Stichprobenwerte um ihren arithmetischen Mittelwert x n s 2 x i x 2 i 1 n 1 s wird Standardabweichung oder Varianz genannt. Bezogen auf die Grundgesamtheit (population) spricht man von n x i 2 i 1 n 2 Aufgabe 1: Zeigen Sie, dass die Standardabweichung auch geschrieben werden kann n als 2 xi2 i 1 n 2 Die Spannweite R (range) ist die Differenz zwischen dem größten und dem kleinsten Wert innerhalb der Stichprobe. R x max x min . Bei der Berechnung werden nur zwei Werte der Stichprobe berücksichtigt. Etwaige Fehler bei der Bestimmung dieser zwei Werte und Ausreißer machen sich stark bemerkbar. 3 C. Lerch-Reisp Grundlagen Statistik Aufgabe 2: Die folgenden Daten sind der Umfang in Metern von einer Probe von Bäumen in einem Wald: 2,1 1,8 3,5 0,8 1,9 0,6 4,6 0,7 1,7 a) Bestimmen Sie den Median die untere und obere Quartile. b) Nach einem Jahr hat der Umfang eines jeden Baumes um 5% zugenommen. Bestimmen Sie den neuen Median und die Quartile. c) Bestimmen Sie den Mittelwert und die Standardabweichung. Welche Bezeichnung wählen Sie? d) Warum ist der Modalwert (mode) keine geeignete Größe, um den Durchschnittswert zu bestimmen? Lösungen: Aufgabe 1: Aufgabe 2: x i 2 x i 2 2xi 2 2 1 n 2 2 n 1 n 2 x x i n i n n i1 i 1 i 1 2 1 n 2 n x i 2 2 2 n i1 n 0,6 0,7 0,8 1,7 1,8 1,9 2,1 3,5 4,6 Median ist der 5. Wert (9+1)/2 , m= 1,8 Der Bereich zwischen der unteren Quartile und der oberen Quartile wird als interquartile range bezeichnet Q3 Q1 und deckt 50% aller Beobachtungen ab. Q1 0,75 0,8 0,7 / 2 Q3 2,8 3,5 2,1 / 2 R = 4,6-0,6 =4 interquartile Range = Q3 Q1 2, 05 5% Wachstum heißt Median wächst auch um 5% 5% von 1,8 sind 0,09; daraus folgt dass der Median 1,089 ist. Der Interquartile Range wächst um 0,1025. Daraus folgt, dass er nach einem Jahr den Wert 2,1525 2,15 ist. Als Bezeichnung wählt man s und x . x 1,97 und s= 1,33. Der Mode ist keine geeignete Größe um den Durchschnittswert zu bestimmen, da die Beobachtungsreihe sehr spärlich ist und jeder Wert mit der Frequenz 1 vorkommt. 4 C. Lerch-Reisp Grundlagen Statistik 2)Wahrscheinlichkeit (Probability) 2.1) Begriffe Der Begriff Wahrscheinlichkeit ist in der Mathematik aus dem umgangssprachlichen Begriff wahrscheinlich abgeleitet. Wer „wahrscheinlich“ sagt, drückt damit aus, dass er nicht sicher ist, ob ein Ereignis eintritt oder nicht. Ziel der Wahrscheinlichkeitsrechnung ist es, den Grad der Unsicherheit oder Sicherheit auf ein quantitatives Maß zurückzuführen und damit zu rechnen. Einen beliebig oft reproduzierbaren Vorgang nennen wir Experiment(trial). Ein Experiment kann verschiedene Ausgänge (outcomes) haben. Der Ausgang eines Experiments ist nicht mit Sicherheit vorhersehbar. Ein derartiges Experiment heißt Zufallsexperiment. Die paarweise verschiedenen Ausgänge des Zufallsexperimentes werden Elementarereignisse (events) genannt. Die Menge aller Elementarereignisse wird Ereignisraum genannt. Der Ereignisraum R eines Zufallsexperimentes besteht aus der Menge der Ausgänge A1, A2, An mit den Eigenschaften: 1) Jedes Element A i R stellt einen möglichen Ausgang des Experimentes dar: 2) Jedem Ausgang des Zufallsexperimentes ist genau ein Element aus R zugeordnet. Beispiel: Das dreimalige Würfeln wird als ein Experiment und nicht als Wiederholung des Experimentes einmal Würfeln angesehen. Die Wahrscheinlichkeit wird auf einer Skala von 0 bis 1 gemessen. O repräsentiert die Unmöglichkeit, 1 repräsentiert die Sicherheit. P A 0 unmögliches Ereignis P A 1 sicheres Ereignis 5 C. Lerch-Reisp Grundlagen Statistik 2.2) Gleichwahrscheinliche Ereignisse (equally likely outcomes) Der Ereignisraum R eines Zufallsexperimentes soll aus n gleichmöglichen Elementarereignissen bestehen. Diejenige Teilmenge, die dem Ereignis A entspricht, besteht aus r Elementarereignissen. Als Wahrscheinlichkeit PA für das Eintreten des Ereignisses A bei der Durchführung eines Zufallsexperiments bezeichnet man die Zahl PA r n Beispiel: Wie groß ist die Wahrscheinlichkeit mit einem Würfel eine gerade Zahl zu werfen? r=3, n = 6 P gerade 3 1 6 2 Aufgabe: Im Spiel Scrabble hat Charlie die Buchstaben B,E, H, Q,S und T . Einer der Buchstaben fällt versehentlich auf den Boden. Wie groß ist die Wahrscheinlichkeit, dass es der Buchstabe a) Q b) B, E, oder S c) nicht E ist? 2.3) Relative Häufigkeit Häufig kann man nicht von gleichwahrscheinlichen Elementarereignissen eines Experimentes ausgehen. Beispiel: Wenn Klara auf einen Bus wartet, muss sie entweder weniger als 5 Minuten oder 5 oder mehr Minuten warten. Diese zwei Ausgänge sind nicht unbedingt gleichwahrscheinlich. Um hier von Wahrscheinlichkeiten sprechen zu können, muss man das Experiment (auf den Bus warten) häufig durchführen. Definition: Man führt n Experimente unter gleichen Bedingungen durch. r Experimente r führen zu dem Ereignis A. Der Ausdruck h r heißt relative Häufigkeit. n Die relative Häufigkeit ist eine empirisch bestimmte Größe und ist nicht zu verwechseln mit der klassischen Definition der Wahrscheinlichkeit. Verändern sich die Werte der relativen Häufigkeiten bei Vergrößerung der Zahl n der durchgeführten Experimente praktisch nicht mehr, dann kann man für genügend großes n die relativen Häufigkeiten (relative frequency) auch als Wahrscheinlichkeit interpretieren. r Pr n 6 C. Lerch-Reisp Grundlagen Statistik 2.4 sich gegenseitig ausschließende Ereignisse (disjunkte Ereignisse) Beispiel: In einem Kartenspiel kann man eine Karte ziehen die Kreuz, Pik, Herz, oder Karo ist, aber nicht mehreres gleichzeitig. Kreuz, Pik, Herz und Karo sind sich gegenseitig ausschließende Ereignisse. Additionstheorem: Wenn A und B sich gegenseitig ausschließende Ereignisse sind, dann ist die Wahrscheinlichkeit, dass A oder B als Ausgang eines Experimentes auftritt, die Summe der einzelnen Wahrscheinlichkeiten für die Ereignisse A und B. P A B P A P B unter der Voraussetzung , dass A B Beispiel: Die Wahrscheinlichkeit entweder Pik, Kreuz und Herz zu ziehen ist 0,25 +0,25 +0,25 = 0,75. Unter einem Komplementärereignis wird A c A wird das Nichteintreten des Ereignisses A verstanden. Da entweder A oder A´ eintreten muss, gilt: P A A 1 Da A und A´ disjunkte Ereignisse sind, gilt: P A P A P A A 1 oder P A 1 P A Aufgaben: In einer Kantine befinden sich 35 Besucher, 12 davon sind über 50 Jahre alt, 15 sind zwischen 30 und 50 Jahre alt und 5 sind zwischen 25 und 29 Jahre alt. Ermitteln Sie die Wahrscheinlichkeit dafür, dass der nächste Gast der bedient wird, a) 30 Jahre oder älter ist b) 25 Jahre oder älter c) unter 25 Jahre d) 50 Jahre oder jünger. 7 C. Lerch-Reisp Grundlagen Statistik 2.5) unabhängige Ereignisse ( independent events) Wenn die Wahrscheinlichkeit des Auftretens des Ereignisses A nicht beeinflusst wird von dem Auftreten des Ereignisses B, dann sind die Ereignisse A und B statistisch unabhängig voneinander. Allgemein: Wenn die Wahrscheinlichkeit des Auftretens eines Ereignisses aus der Gruppe A1 , A 2 A n A nicht beeinflusst wird von dem Auftreten eines Ereignisses aus der Gruppe B1 , B2 , Bn B, dann sind die Ereignisse Ai ,i 1 n statistisch unabhängig von den Ereignissen Bj , j 1 m . Beispiel: Eine gerade Zahl zu werfen mit einem roten Würfel ist unabhängig davon eine ungerade Zahl mit einem blauen Würfel zu werfen. Die Wahrscheinlichkeit, eine 12 mit beiden Würfeln zu werfen ist 1 1 1 . 36 6 6 Wenn A und B voneinander unabhängige Ereignisse sind, dann gilt: P A B P A P B Aufgaben: 1) Bestimmen Sie die Wahrscheinlichkeit dafür, dass man die Augenzahl vier erhält, wenn zwei Würfel geworfen werden. 2) Die Wahrscheinlichkeit, dass die Anrufe bei der Bahnauskunft beantwortet werden, beträgt 0.7. Wenn drei Anrufe getätigt werden, wie groß ist die Wahrscheinlichkeit, a) dass alle drei beantwortet werden b) genau zwei beantwortet werden? 2.6) Pfaddiagramme (tree diagrams) Aufgabe 3) Eine Münze wird dreimal geworfen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass die Rückseite(Zahl) 0,1,2 oder dreimal geworfen wird? Aufgabe 4) Lösen Sie Aufgabe 2 mit Hilfe eines Baumdiagrammes. 8 C. Lerch-Reisp Grundlagen Statistik 2.7) bedingte Wahrscheinlichkeit (conditional probability) Einführungsbeispiel: In einem Raum befinden sich 25 Leute. Männlich weiblich Brillenträger 4 5 Kein Brillenträger 5 11 Eine Person wird zufällig ausgewählt. F sei das Ereignis dafür, dass die Person weiblich ist. G beschreibe das Ereignis, dass die Person Brillenträger ist. 9 9 Personen sind Brillenträger, daraus folgt: P G . 25 4 P G M 4 von den Brillenträgern sind männlich 9 5 P G F 5 von den Brillenträgern sind weiblich 16 Das Ereignis G wird davon beeinflusst, ob das Ereignis F eingetreten ist oder nicht. F und G sind nicht unabhängig voneinander. P A B beschreibt die Wahrscheinlichkeit, dass das Ereignis A eintritt, wenn das Ereignis B stattfindet. Zwei Ereignisse heißen unabhängig, wenn P A P A B . Multiplikationsgesetz: Es gilt: Zwei Ereignisse A und B sind unabhängig, wenn gilt: P A B P A P B Oder allgemeiner ausgedrückt: P A B P B P A B Unter bedingter Wahrscheinlichkeit (conditional probability) eines Ereignisses A bei eingetretenem Ereignis B versteht man: P A B P A B P B 9 C. Lerch-Reisp Grundlagen Statistik Beispiel: Die Studenten im ersten Jahr in der Studienrichtung Naturwissenschaften belegen noch optional einen Sprachkurs. Die Aufteilung auf die Sprachkurse nach Geschlecht ist in der folgenden Tabelle ersichtlich: Französisch Deutsch Russisch Gesamt Männlich 17 9 14 40 Weiblich 12 11 7 30 Gesamt 29 20 21 70 Ein Student wird willkürlich ausgewählt: M beschreibe das Ereignis, das der Student männlich ist. R beschreibe das Ereignis, dass der Student Russisch studiert. Bestimmen Sie: a) P M b) P R c) PM R e) P M R f) P R M g) P M i) P R M j) P R M k) P M R d) P M R h) l) P R P M R 10 C. Lerch-Reisp Grundlagen Statistik Lösung: a) Von insgesamt 70 Studenten sind 40 männlich: P M 40 4 0,571 70 7 b) 21 von insgesamt 70 Studenten lernen Russisch. P R 21 3 0,3 70 10 c) Es gibt insgesamt 21 Russisch-Studenten, von denen 14 männlich sind. P M R 14 21 d) Von insgesamt 70 Studenten sind 14 männlich und studieren gleichzeitig russisch. P M R e) f) g) 14 70 Es gibt insgesamt 17+9+14+7 = 47 Studenten die entweder Russisch studieren oder 47 0, 671 männlich sind oder beides. P M R 70 Es gibt 40 männliche Studenten von denen 14 Russisch studieren. 14 P R M 0,35 40 Es gibt 30 Studenten, die nicht männlich sind. P M 30 3 0, 429 70 7 49 0, 7 70 h) Insgesamt studieren 49 Studenten kein russisch. P R i) Von den 30 weiblichen ( nicht männlichen )Studenten studieren 7 russisch. P R M j) 7 0, 233 30 Von 40 männlichen Studenten studieren 17+9 = 26 kein russisch. P R M k) l) 26 0, 65 40 Es gibt 7 Studenten, die nicht männlich sind und gleichzeitig russisch studieren. 7 P M R 0,1 70 Es gibt insgesamt 17 +9+14+12+11 = 63 Studenten, die entweder männlich sind oder nicht russisch studieren oder beides. 63 P M R 0,9 70 11 C. Lerch-Reisp Grundlagen Statistik Test 1) Von 12 Komponenten sind drei defekt. Wenn 2 von 12 Komponenten zufällig ausgewählt werden, bestimmen Sie die Wahrscheinlichkeit, dass a) beide defekt sind b) genau eine defekt ist. 2) Wann gilt: P R Q P R P Q ? 3) Wann gilt: P S T P S P T ? 4) Ein Student wird willkürlich aus einer Klasse ausgewählt. R bezeichne das Ereignis, dass der Student weiblich ist. Beschreiben Sie das Komplementärereignis. 5) In einer Straßenbahn befinden sich 15 männliche und 20 weibliche Fahrgäste. 10 der männlichen und 16 der weiblichen Fahrgäste sind über 25 Jahre alt. Ein Fahrkartenkontrolleur wählt einen Fahrgast zufällig aus. A beschreibe das Ereignis, dass der Fahrgast weiblich ist, B bezeichne das Ereignis, dass die Person über 25 ist. Bestimmen Sie P A P B P A B P A B P A B . Verifizieren Sie, dass P A B P B P A B . Warum gilt in diesem Fall nicht: P A B P A P B ? 6) Die Wahrscheinlichkeit für den Ausgang eines Fußballspieles ist 0,4 bei einem Heimsieg 0,25 bei einem Auswärtssieg 0,35 für ein unentschieden. Wenn drei Spiele gespielt werden und die Ausgänge unabhängig voneinander sind, bestimmen Sie die Wahrscheinlichkeit a) dass drei Heimsiege eintreten b) genau ein Heimsieg c) ein Heimsieg, ein Auswärtssieg und ein unentschieden. 12 C. Lerch-Reisp Grundlagen Statistik Lösungen 1a) P 1st defekt 2te defekt P 1st defekt P 2te defekt 1st defekt P 1st defekt 3 1 0, 25 12 4 P 1st ok 9 3 0, 75 12 4 Nach dem ersten Zug sind nur noch 11 Teile übrig, von denen ein Teil ausgewählt werden kann, welches defekt ist. P 2te defekt 1st defekt 2 11 P 1st defekt 2te defekt P 1st defekt P 2te defekt 1st defekt 1 2 1 0, 0455 4 11 22 1b) Es gibt zwei Ausgänge, die das Ereignis genau ein Teil ist defekt realisieren. P 1st defekt 2te ok P 1st defekt P 2te ok 1st defekt P 1st ok 2te defekt P 1st ok P 2te defekt 1st ok 3 9 0, 20455 12 11 9 3 0, 20455 12 11 Die beiden Ausgänge sind unabhängig voneinander, deswegen dürfen die Wahrscheinlichkeiten addiert werden. P ok defekt 0, 409 2) R und Q sind unabhängige Ereignisse 3) Die Ereignisse S und T schließen sich gegenseitig aus. 4) Der Student ist männlich, R 5) 4 ; 7 26 8 16 6 ; ; ; ; 35 13 35 7 P B P A B 26 8 16 P A B 35 13 35 A und B schließen sich nicht gegenseitig aus. 6) a) 0,064 b) 0,432 c) 0,21 13 C. Lerch-Reisp 3) Grundlagen Statistik Wahrscheinlichkeitsverteilungen 3.1 Allgemein Der Ausgang A eines Experimentes wird durch die Zufallsvariable X mit der Wahrscheinlichkeit P beschrieben. A X P Beispiel Würfeln Die Zufallsvariablen sind 1, 2, 3, 4, 5 und 6. Die Wahrscheinlichkeit eine 1 zu würfeln, ist 1 P X 1 . 6 3.2 Rechteckverteilung Betrachtet man bei einem Würfel mehrere Würfe hintereinander und stellt die Ergebnisse in Form einer Verteilung dar, so ergibt sich eine sogenannte Rechteckverteilung. Sie entsteht, wenn alle Ausgänge mit der gleichen Wahrscheinlichkeit auftreten. Px x 1 2 3 4 5 6 14 C. Lerch-Reisp Grundlagen Statistik 3.3 Dreieckverteilung Verwendet man bei einem Wurf zwei Würfel, so erhöht sich die mögliche Augenzahlsumme und es entsteht aus der sogenannten Rechteckverteilung eine Dreieckverteilung. Der Ausgang x = 5 kann durch 4 Ereignisse realisiert werden. 1. Würfel 2.Würfel Summe 1 4 5 2 3 5 3 2 5 4 1 5 Die Wahrscheinlichkeitsverteilung ist als Tabelle und als Graph dargestellt. Zufallsvariable x Wahrscheinlichkeit P(x) 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36 15 C. Lerch-Reisp Grundlagen Statistik P(x) 0,1800 0,1600 0,1400 0,1200 0,1000 0,0800 0,0600 0,0400 0,0200 0,0000 0 2 4 6 8 10 12 14 16 C. Lerch-Reisp Grundlagen Statistik 3.4 Die Binomialverteilung 3.4.1 Einführung Die Binomialverteilung erlaubt für die Zufallsvariable zwei mögliche Ausgänge. Wir betrachten dazu noch einmal das Beispiel „Wurf einer Münze“. 0,5 K KKK 1 1 1 2 2 2 0,5 Z KKZ 1 1 1 2 2 2 0,5 K KZK 1 1 1 2 2 2 0,5 Z KZZ 1 1 1 2 2 2 0,5 K ZKK 1 1 1 2 2 2 0,5 Z ZKZ 1 1 1 2 2 2 0,5 K ZZK 1 1 1 2 2 2 0,5 Z ZZZ 1 1 1 2 2 2 K 0,5 K 0,5 0,5 Z 0,5 K 0,5 Z 0,5 Z 17 C. Lerch-Reisp Grundlagen Statistik Nach drei Versuchen (Würfen) sind folgende Ausgänge möglich: 3 mal Kopf (0 mal Zahl) 2 mal Kopf ( 1 mal Zahl ) KKK 1 mal Kopf (2 mal Zahl) KKZ KZK ZKK 1 Möglichkeit KZZ ZKZ ZZK 3 Möglichkeiten 3 Möglichkeiten 0 mal Kopf ( 3 mal Zahl ) ZZZ 1 Möglichkeit Dies wird wie folgt dargestellt: 3 1 1 P x 0 2 8 3 1 3 P x 2 3 2 8 3 3 1 P x 1 3 2 8 3 1 1 P x 3 2 8 Wäre die Münze nicht symmetrisch, das heißt Kopf würde z.B. nur mit der Wahrscheinlichkeit 0,25 geworfen, dann würde das Baumdiagramm folgendermaßen aussehen: 18 C. Lerch-Reisp Grundlagen Statistik 0,25 K KKK 1 1 1 4 4 4 0,75 Z KKZ 1 1 3 4 4 4 0,25 K KZK 1 3 1 4 4 4 0,75 Z KZZ 1 3 3 4 4 4 0,25 K ZKK 3 1 1 4 4 4 0,75 Z ZKZ 3 1 3 4 4 4 0,25 K ZZK 3 3 1 4 4 4 0,75 Z ZZZ 3 3 3 4 4 4 K 0,25 K 0,25 0,75 Z 0,75 K 0,25 Z 0,75 Z 19 C. Lerch-Reisp Grundlagen Statistik 3 1 P x 2 3 4 1 P x 3 4 1 3 P x 1 3 4 4 2 2 3 4 3 3 P x 0 4 3.4.2 Die wesentlichen Eigenschaften der Binomialverteilung Eine feste Anzahl von Versuchen n Es gibt immer nur zwei mögliche Ausgänge pro Versuch Die Wahrscheinlichkeit für einen Ausgang ändert sich nicht pro Versuch. Die Versuche sind unabhängig voneinander. Die Buchstaben n und p sind die sogenannten Parameter der Binomialverteilung. n repräsentiert die Anzahl der Versuche. p beschreibt die Wahrscheinlichkeit für einen bestimmten Ausgang. Für eine Zufallsvariable x, durch die Binomialverteilung beschrieben wird, gilt: x B n, p . In den vorherigen Beispielen war: x 1 B 3, und x 2 1 B 3, 4 20 C. Lerch-Reisp Grundlagen Statistik 3.4.3 Pascal´sches Dreieck Wir betrachten nochmal die beiden Experimente Werfen Kopf oder Zahl. Bei drei Experimenten gibt es genau eine Möglichkeit, das Ergebnis KKK zu realisieren, es gibt drei Möglichkeiten, das Ergebnis zweimal Kopf zu realisieren, ebenso drei Möglichkeiten, einmal Kopf zu realisieren und genau eine Möglichkeit kein einziges Mal Kopf zu realisieren. Erhöhen wir die Anzahl der Versuche n, so erhöhen wir auch die Kombinationsmöglichkeiten. Für n = 4 gibt es 24 Permutationen; davon sind einige Permutationen gleich. KKKK KKKZ KKZZ KZZZ KZKK KZKZ ZKZZ KKZK KZZK KZKZ ZKKK ZKKZ ZZZK ZZZZ ZKZK ZZKK 1 4 6 Anzahl Permutationen = NP 4! 1 4!0! 4! KKZZ 6 2!2! KKKK 4 1 N! N1 ! N2 ! Nm ! 4! 4 3!1! 4! KZZZ 4 3!1! KKKZ ZZZZ 4! 1 4! 21 C. Lerch-Reisp Grundlagen Statistik Man erkennt in diesen Zahlen das Pascal´sche Dreieck wieder. 1 1 1 1 2 1 3 1 n =0 4 n=1 1 3 6 n=2 1 4 n=3 1 n=4 n Dies sind die Binomialkoeffizienten . r Die Wahrscheinlichkeit bei 3 Versuchen 2-mal Kopf zu ziehen (2-mal Erfolg) und 1-mal eine Zahl zu ziehen (kein Erfolg) ist somit gegeben durch 3 1 P x 2 1 2 2 1 1 3 Pkopf Pzahl 2 Weiteres Beispiel: In einem Gefäß befinden sich sehr viele rote und weiße Kugeln. Der Bruchteil der roten Kugeln beträgt p, der der weißen Kugeln beträgt q=1-p. n Kugeln werden blind gezogen. (Im Gefäß müssen sehr viele Kugeln sein, damit sich beim Ziehen die Anteile nicht merklich ändern, oder jede Kugel wird einzeln gezogen und dann wieder zurückgelegt.) Eine Realisierung von r-mal rot, (n-r)-mal weiß, hat also die Wahrscheinlichkeit Pr pr q n r Nun kann dieses Ereignis aber auf unterschiedliche Weise realisiert werden, je nachdem in welcher Reihenfolge die Kugeln gezogen werden. Außerdem gibt es Ziehungen, die ein anderes Ereignis darstellen, wenn z.B. keine rote Kugel gezogen wird. Wir denken uns die n Kugeln jeweils nebeneinander gelegt. R davon sollen rot sein, d.h. auf n Plätzen (Elementen) liegt ein Muster von r roten Kugeln. Also handelt es sich um die Kombination von r Elementen aus n vorhandenen Elementen, wobei die Reihenfolge gleichgültig ist. Die Anzahl dieser Kombinationen ist dann n n! r r! n r ! 22 C. Lerch-Reisp Grundlagen Statistik 3.4.4 Formel der Binomialverteilung Die Wahrscheinlichkeit für das Ereignis X= r-mal Erfolg, (n-r) mal kein Erfolg in allen Realisierungen, ist die Summe der Wahrscheinlichkeiten für jede Realisierung, da sie sich gegenseitig ausschließen, also ist n n r P X r pr 1 p r Beispiel: Wenn eine Münze achtmal geworfen wird, wie groß ist die Wahrscheinlichkeit, dass weniger als 4mal Kopf geworfen wird? P x 4 P x 0 P x 1 P x 2 P x 3 8 7 1 6 2 5 3 1 8 1 1 8 1 1 8 1 1 P x 4 0,3633 2 1 2 2 2 2 2 3 2 2 Beispiel 1: Ein Golfer übt auf einer Driving Range. Sein Ziel ist es, den Ball 20 m an die Fahne zu schlagen. Die Wahrscheinlichkeit, dies mit jedem Schlag zu erreichen, ist ein Drittel. Wenn er 20 Bälle abschlägt, wie groß ist die Wahrscheinlichkeit, a) b) c) d) 5-mal oder weniger sein Ziel zu erreichen? 7-mal oder häufiger Erfolg zu haben? genau 6mal Erfolg zu haben? zwischen 4 und 8-mal inklusive Erfolg zu haben? Lösung: Es ist n = 20, p = 0,3. a) P x 5 0, 4164 b) P x 7 1 P x 6 1 0, 6080 c) P x 6 P x 6 P x 5 0, 6060 0, 4164 0,1916 20 6 14 P x 6 0,3 0,7 0,1916 6 d) P 4 x 8 P x 8 P x 3 0,8867 0,1071 0, 7796 23 C. Lerch-Reisp Grundlagen Statistik Beispiel 2 Der Anteil fehlerhafter Einheiten in der Grundgesamtheit beträgt p=8%. Wie groß ist die Wahrscheinlichkeit bei einer Stichprobe von n=50 a) Genau x = 1 fehlerhafte Einheiten zu finde? b) Bis zu x =1 fehlerhafte Einheiten zu finden, d.h. x = 0 oder x = 1 fehlerhafte Einheiten zu finden? In unserem Beispiel ist n = 50, r = 1, p =0,08 und q = 0,92 n P X p r q n r r 50 1 49 P X 0,08 0,92 50 0,08 0,0168113 0,0672455 1 P X ist die Wahrscheinlichkeit, genau ein fehlerhaftes Teil zu finden. 3.4.5 Der Mittelwert und die Varianz bei der Binomialverteilung Beispiel: Es werden 0 Tischtennisspiele durchgeführt. Wie viele Spiele wird der Gegner gewinnen, wenn die Wahrscheinlichkeit ein Fünftel pro Spiel ist gegen dich zu gewinnen? 1 Antwort: 10 2 5 Der Mittelwert der Binomialverteilung ist n p Die Varianz ist 2 n p 1 p 1 4 Im obigen Beispiel ist die Varianz 2 10 1, 6 5 5 Aufgabe 1: Eine Autowerkstatt hat an einem Tag acht Anfragen für ein Gutachten. Der Besitzer der Werkstatt hat über die Jahre herausgefunden, dass die Wahrscheinlichkeit 0.15 ist, dass die Schätzung akzeptiert wird. Berechnen Sie die Wahrscheinlichkeit, dass von acht Gutachten genau zwei akzeptiert werden mehr als die Hälfte abgelehnt werden. Bestimmen Sie den Mittelwert und die Standardabweichung der akzeptierten Gutachten. 24 C. Lerch-Reisp Grundlagen Statistik Aufgabe 2: Bei der Herstellung von Nägeln entsprechen 8% aller Teile nicht den Anforderungen. Eine Probe von 40 Teilen wird aus einer großen Charge ausgewählt. Wie viele Teile entsprechen im Durchschnitt nicht den Anforderungen? Wie groß ist die Varianz? Lösungen: Aufgabe 1: X B 8, 0.15 P X 2 P X 2 P X 1 0,8948 0,6572 0, 2376 P X 3 0,9786 8 0,15 1, 2 Mittelwert 8 0,15 0,85 1,010 Standardabweichung Aufgabe 3: Experiment1: In einer Tasche befinden sich schwarze, weiße und rote Kugeln. Es werden nacheinander 10 Kugeln gezogen, die jeweils wieder zurückgelgt werden. Die Farbe jeder gezogenen Kugel wird notiert. Experiment2: Dieses Experiment ist eine Wiederholung des ersten, die Tasche enthält aber nur schwarze und weiße Kugeln. Experiment3: Dieses Experiment ist eine Wiederholung des zweiten Experimentes; die Kugeln wurden aber nach jedem Zug nicht zurückgelegt. Erklären Sie bei jedem Experiment, ob es sich um eine Binomialverteilung handelt oder nicht. 25 C. Lerch-Reisp Grundlagen Statistik 3.5 Allgemein: die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariablen 3.5.1 Verteilungsfunktion Die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariablen X lässt sich durch die Wahrscheinlichkeitsfunktion p f x i 0 für x x i für x x i oder durch die zugehörige Verteilungsfunktion Fx P X x f xi xi x vollständig beschreiben( p i ist die Wahrscheinlichkeit dafür, dass die Zufallsvariable X den Wert x i annimmt). Die Wahrscheinlichkeitsfunktion f(x) und die Verteilungsfunktion F(x) besitzen die folgenden Eigenschaften: a) f xi 0 b) f x ist normiert, d.h. f xi 1 i 1 c) F x ist eine monoton wachsende Funktion mit 0 F x 1 d) Die Wahrscheinlichkeit dafür, dass die diskrete Zufallsvariable X einen Wert zwischen a (ausschließlich) und b (einschließlich) annimmt, berechnet sich wie folgt: P a X b F b F a Beispiel 1) Die Wahrscheinlichkeit, den Golfball im Umkreis von 20 m an die Fahne zu schlagen, war P x 0,3 . Bei 20 Vorgängen berechnet sich die Wahrscheinlichkeit 4 bis acht-mal Erfolg zu haben durch: P 4 x 8 P x 8 P x 3 F(8) F(3) 0,8867 0,1071 0, 7796 26 C. Lerch-Reisp Grundlagen Statistik Beispiel 2) Wurf eines homogenen Würfels Betrachtet man bei einem Würfel mehrere Würfe hintereinander und stellt die Ergebnisse in Form einer Verteilung dar, so ergibt sich eine sogenannte Rechteckverteilung. Sie entsteht, wenn alle Ausgänge mit der gleichen Wahrscheinlichkeit auftreten. Px x 1 2 3 4 5 6 Fx 1/6 x 1 2 3 4 5 6 27 C. Lerch-Reisp Grundlagen Statistik Beispiel 3: Bei einem Wurf mit zwei unterscheidbaren homogenen Würfeln besteht die Ergebnismenge, genannt , aus insgesamt 36 gleichwahrscheinlichen Elementarereignissen (geordnete Augenpaare). P(x) 0,1800 0,1600 0,1400 0,1200 0,1000 0,0800 0,0600 0,0400 0,0200 0,0000 0 2 4 6 8 10 12 14 Diagram für F(x) einfügen 28 C. Lerch-Reisp Grundlagen Statistik 3.5.2 Erwartungswert einer diskreten Zufallsvariablen Unter dem Erwartungswert E(X) einer diskreten Zufallsvariablen X mit der Wahrscheinlichkeitsfunktion f(x) =P(x) versteht man die Größe E X xif xi i Beispiel: Beim Wurf eines homogenen Würfels ist die diskrete Zufallsvariable X = erzielte Augenzahl gleichverteilt. Sie besitzt den folgenden Erwartungswert: 6 1 1 1 1 1 1 1 E X xi f x i 1 2 3 4 5 6 21 3,5 6 6 6 6 6 6 6 i 1 3.5.3 Erwartungswert einer Funktion Definition: X sei eine diskrete Zufallsvariable mit der Wahrscheinlichkeits- bzw. Dichtefunktion f (x) und Z g X eine von X abhängige Funktion. E Z E g X g x i f x i i ist der Erwartungswert der Funktion Z g X . Beispiel: Gegeben sei eine diskrete Zufallsvariable X mit der folgenden Verteilungsfunktion xi f xi 1 2 3 4 1/8 3/8 3/8 1/8 Der Erwartungswert der von X abhängigen Funktion Z = X² ist dann 1 3 3 1 56 E Z E X2 xi2 f x i 12 22 32 42 7. 8 8 8 8 8 i 29 C. Lerch-Reisp Grundlagen Statistik 3.5.4 Mittelwert, Varianz und Standardabweichung einer diskreten Zufallsvariablen Gegeben sei die diskrete Zufallsvariable X mit der Wahrscheinlichkeitsfunktion f(x). E X xi f xi Mittelwert: i 2 Var X x i f x i 2 Varianz: i Var X Standardabweichung: Die Varianz 2 ist der Erwartungswert der Zufallsvariablen (Funktion) Z X , 2 durch die die mittlere quadratische Abweichung vom Mittelwert beschrieben wird. 2 E X x i f x i 2 2 i Es gilt immer 2 0 . Die Varianz ist ein Maß für die Streuung der einzelnen Werte x i um den Mittelwert . Ist die Varianz klein, liegen die meisten Werte in der Nähe vom Mittelwert. Größere Abweichungen vom Mittelwert treten nur mit geringen Wahrscheinlichkeiten auf. Die Standardabweichung wird auch als Streumaß verwendet. Sie hat den Vorteil, dass sie die gleiche Dimension wie die Zufallsvariable besitzt. Sie beschreibt die durchschnittliche, mittlere Abweichung von der Zufallsvariablen. Zur Berechnung der Varianz wird auch häufig folgende Formel verwendet: 2 2 E X E X 2 2X 2 E X 2 2E x 2 E 1 2 E X2 22 2 E X2 2 30 C. Lerch-Reisp Grundlagen Statistik Beispiel: Wir würfeln mit zwei homogenen Würfeln X 2 3 4 5 6 7 8 9 10 11 12 P(X) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Der Mittelwert der Verteilung ist gegeben durch E X xi f xi 2 i 1 2 3 36 36 12 1 252 7. 36 36 Der Mittelwert fällt hier erwartungsgemäß mit dem Symmetriezentrum x 7 der Verteilung zusammen. Bei oftmaliger Wiederholung dieses Würfelexperimentes erwarten wir daher eine durchschnittliche Augensumme von 7. Für die Varianz erhalten wir: 2 Var X x i f x i 2 7 2 2 i 1 2 2 3 7 36 36 12 7 2 1 36 210 35 5,83 36 6 Die Standardabweichung berechnet sich dann zu 5,83 2, 42 Wir berechnen die Standardabweichung nach der folgenden Formel 2 E X 2 2 22 1 2 32 36 36 122 1 329 294 35 72 36 6 6 6 Aufgabe 1: Die Verteilungstabelle einer diskreten Verteilung ist gegeben durch xi -2 f xi 1 8 -1 3 8 1 2 1 4 1 4 Welchen Erwartungswert besitzt die Verteilung? Berechnen Sie den Erwartungswert der von X abhängigen Funktion Z g(X) 5X 2 Aufgabe 2: In einer Lieferung von 10 Glühbirnen befinden sich zwei defekte. Wie viele defekte Glühbirnen kann man im Mittel in einer Stichprobe vom Umfang n = 3 erwarten, die der angelieferten Ware zu Kontrollzwecken entnommen wird? X= Anzahl der in der Stichprobe enthaltenen defekten Glühbirnen. 31 C. Lerch-Reisp Grundlagen Statistik Lösungen: 1 3 1 1 5 6 1 Aufgabe 1: E X 2 1 1 2 8 8 4 4 8 6 8 1 21 E Z 5 E X 2 5 2 8 8 Aufgabe 2: xi 0 1 2 f xi 7 15 7 15 1 15 E X 3 5 32 C. Lerch-Reisp Grundlagen Statistik 3. 6 Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariablen 3.6 1 Verteilungsfunktion Bei einer stetigen Zufallsvariablen X mit dem Definitionsbereich X wird die Verteilungsfunktion F X durch ein Integral beschrieben: FX P X x x f u du Der Integrand heißt Wahrscheinlichkeitsdichtefunktion oder einfach nur Dichtefunktion der stetigen Verteilung. Graph: Wahrscheinlichkeitsdichtefunktion Graph: Verteilungsfunktion Es gilt: a) f x 0 b) 0 F x 1 c) P x f x dx 1 b d) P a x b f x dx F b F a a e) F x f (x) Beispiele: X sei eine stetige Zufallsvariable mit der Wahrscheinlichkeitsfunktion (Dichtefuktion) f x 0, 02 x F x x 0 x 10 ; f x 0 sonst x 1 f u du 0, 02 u du u 2 0, 01 x 2 2 0 0 0 F x 0, 01 x 2 1 x für x 0 für 0 x 10 für x 10 33 C. Lerch-Reisp Grundlagen Statistik f(x) 0,2 10 x 10 x F (x) 1 34 C. Lerch-Reisp Grundlagen Statistik Beispiel: Die Lebensdauer T eines bestimmten elektronischen Bauelementes sei eine exponentialverteilte Zufallsgröße mit der Dichtefunktion 0 f t 0,1t c e für t 0 t 0 1) Wie heißt die zugehörige Verteilungsfunktion F t ? Die Konstante c wird aus der Normierungsbedingung bestimmt: f t dt c e0,1t dt c 10 e0,1t 10 c 1 0 0 f t 0,1 e0,1t Daraus ergibt sich für die Verteilungsfunktion für t ≥ 0 F t t t f u du 0,1 e0,1u du 0,1 10 e 0,1u 1 e 0,1t t 0 0 Wir wollen nun den Anteil der Bauelemente bestimmen, deren Lebensdauer den Wert t = 10 übersteigt. Die gesuchte Wahrscheinlichkeit P T 10 entspricht der schraffierten Fläche der Wahrscheinlichkeitsfunktion f t . 0, 1 10 35 C. Lerch-Reisp Grundlagen Statistik P T 10 1 P T 10 1 P T 10 1 F 10 F 1 F 10 1 1 e1 e1 0,368 Nach t = 10 sind noch 36,8 % aller elektronischen Bauelemente funktionstüchtig. 3.6.2 Der Erwartungswert einer stetigen Zufallsvariablen Der Erwartungswert einer stetigen Zufallsvariablen X mit der Dichtefunktion f (x) ist definiert durch E ( X ) mit EX x f x dx Beispiel: Die Lebensdauer T eines bestimmten elektronischen Bauelementes kann in guter Näherung als exponentialverteilte Zufallsvariable mit der Dichtefunktion 0 f t t e t 0 t0 für beschrieben werden. Die mittlere Lebensdauer ist dann durch den Erwartungswert E (T) gegeben. E T 0 t f t dt t e t dt 1 1 t 1 t e t 1 e t 2 0 0 36 C. Lerch-Reisp Grundlagen Statistik 3.6.3 Mittelwert, Varianz und Standardabweichung einer stetigen Zufallsvariablen Für die stetige Zufallsvariable X mit der Dichtefunktion f ( x ) gilt: Mittelwert µ EX x f x dx Varianz 2 Var X 2 x 2 f x dx Standardabweichung Var X Beispiel: Wir betrachten noch einmal ein elektronisches Bauelement mit der Lebnsdauer T . T sei eine exponentielle Zufallsgröße mir der Dichtefunktion 0 f t t e für t 0 . t0 Der Erwartungwert oder Mittelwert ber Zufallsvariablen T wurd bereits im letzten Abschnitt ermittelt mit E T 1 Für die Varianz haben wir gezeigt, dass die folgende Formel gilt: 2 E X2 22 2 E X2 2 E T 2 2 2 t t f t dt t e dt 0 t 2 t 2 t 2 2 e 3 2 3 0 0 2 2 2 E T 2 2 2 1 1 2 2 2 Die Standardabweichung der exponentialverteilten Zufallsvariablen T beträgt somit 1 . 37 C. Lerch-Reisp Grundlagen Statistik 3.6.4 Mittelwert und Varianz einer linearen Funktion X sei eine stetige oder diskrete Zufallsvariable mit E X x und der Varianz Var X x2 . Für die von X linear abhängigen Funktion Z mit Z g X a X b ergeben sich dann die entsprechenden Kennwerte zu z E Z E a x b a E x b E 1 a x b . Die Varianz berechnen wir nach der Formel 2 z 2 E Z z E Z 2 z 2 Für den Erwartungwert von Z² erhalten wir 2 E Z 2 E aX b E a 2 X 2 2abX b 2 a 2 E X 2 2abE X b 2 E 1 E Z 2 a 2 E X 2 2ab x b2 Diesen Ausdruck setzen wir jetzt in die Formel für die Varianz ein: E X 2ab b a 2ab b E X a a E X a z 2 E Z2 z 2 a 2 E X 2 2ab x b 2 a x b a2 a2 2 2 x 2 2 2 2 2 x 2 2 x 2 x 2 2 x 2 2 x Beispiel: Die Zufallsvariable X mit dem Mittelwert x und der Varianz x2 2 wird linear transformiert in die Zufallsvariable Z durch Z X 1 X 1 0 z a x b 2 z a 2 2 2x 1 2 1 Die durchgeführte Transformation heißt Standardisierung oder Standardtransformation , die Zufallsvariable Z ist die zu X gehörige standardisierte Zufallsvariable. 38 C. Lerch-Reisp Grundlagen Statistik Aufgaben: 1) Die Dichteverteilung einer stetigen Verteilung ist ax 2 2 x f x 0 für 0 x2 für alle übrigen a) Bestimmen Sie den Parameter a. b) Wie lautet die zugehörige Verteilungsfunktion? c) Berechnen Sie die Wahrscheinlichkeit, dass die Zufallsvariable X einen Wert kleiner oder gleich 1 annimmt. d) Berechnen Sie den Mittelwert und die Varianz der stetig verteilten Zufallsvariable X. 2) Die Lebensdauer T eines bestimmten elektronischen Bauelements genüge einer Exponentialverteilung mit der Dichtefunktion 0 f t t e für t 0 t0 0 . Wie groß ist die Wahrscheinlichkeit dafür, dass ein Bauelement mindestens bis zum Zeitpunkt t 2 1 funktionstüchtig bleibt? 3) Die stetige Zufallsvariable X genüge einer Exponentialverteilung mit der x Dichtefunktion f x e , x 0; 0 . Bestimmen Sie den Mittelwert der folgenden von X abhängigen Funktionen. Z e X Z 2X 1 39 C. Lerch-Reisp Grundlagen Statistik Lösungen: Aufgabe 1 a) Durch Normierung der Dichtefunktion folgt a x 3 1 u 2 2 u du 8 x3 3x 4 4 0 16 b) F x c) P X 1 d) e) 3 . 4 5 16 2 3 2 x3 x4 dx 4 0 EX2 2 E X 2 2 Aufgabe 2 P 0 T 2 1 2/ e t dt 0,8647 0 Aufgabe 3 0 0 0 0 z z f x dx e1 x dx 1 z z f x dx 2 x 1 e x dx 2 40 C. Lerch-Reisp Grundlagen Statistik 4 Normalverteilung Die Standard- Normalverteilung wird beschrieben durch 2 z 1 P z e 2 2 Sie hat den Mittelwert 0 und eine Standardabweichung von 1. Die allgemeine Formel für die Normalverteilung ist 1 z 2 1 P z e 2 2 Eigenschaften: 1) 2) 3) 4) 5) 6) 7) 8) 9) Der Mittelwert µ ist der häufigste Wert. Das Maximum liegt bei µ. Die Normalverteilung liegt symmetrisch zum Maximum µ. Die Wahrscheinlichkeit nimmt rechts und links vom Mittelwert symmetrisch ab. Dabei geht die zunächst konvex verlaufende Abnahme am Wendepunkt in eine konkav verlaufende über. („Glockenkurve“) Der Abstand des Wendepunktes vom Mittelwert µ entspricht der Standardabweichung σ der Verteilung. Die Verteilung ist durch µ und σ eindeutig beschrieben. Ihre Werte finden sich in einschlägigen Werken tabelliert. Der Parameter σ bestimmt die spezielle Gestalt der Normalverteilung. Ist σ klein, so ist die Kurve hoch und schmal bei scharf ausgeprägtem Maximum. Je größer σ, desto flacher und breiter ist der Kurvenverlauf. Dabei bleibt die Fläche unter der Kurve konstant. Die Normalverteilung ist eine Wahrscheinlichkeitsverteilung. Sie muss den Normierungsbedingungen genügen- die Summe über alle Wahrscheinlichkeiten muss 1 sein. f x dx 1 41 C. Lerch-Reisp Grundlagen Statistik 42 C. Lerch-Reisp Grundlagen Statistik Eine normalverteilte Zufallsvariable X mit den Parametern µ und σ lässt sich stets mit Hilfe der Variablentransformation Z X in die Standardnormalverteilte Zufallsvariable Z überführen. Das uneigentliche Integral der Verteilungsfunktion ist jedoch nicht elementar lösbar. Die Werte dieser Funktion müssen daher mit speziellen Näherungsmethoden berechnet werden. Meistens verwendet man Tabellen, um die benötigten Funktionswerte zu berechnen. Der Gebrauch von Tabellen einfügen, Die Standardnormalverteilung und die Normalverteilung im allgemeinen Beispiel: Eine Messgröße sei normalverteilt mit dem Mittelwert µ = 8 und der Standardabweichung σ = 1. Wie viele Messwerte sind dann kleiner als 7? Antwort: 16% 43 C. Lerch-Reisp Grundlagen Statistik 44 C. Lerch-Reisp 4.1 Grundlagen Statistik Modellbildung mit der Normalverteilung Das Gewicht einer Packung Butter im Supermarkt kann durch eine Normalverteilung mit einem Mittelwert von 250 g und einer Standardabweichung von 7,5 g modelliert werden. Das Wort modelliert impliziert, dass das Gewicht nicht exakt durch eine Normalverteilung beschrieben wird. Berechnungen, die aber eine Normalverteilung zugrunde legen, werden Antworten geben, die sehr nahe an der Realität sind. Wenn wir z.B. die Normalverteilung benutzen, um den Anteil der Packungen ermitteln möchten, die weniger als 250g wiegen, dann wird die Antwort sehr nahe an dem tatsächlichen Anteil liegen, der weniger als 250 g wiegt. Das Wort Modell bedeutet in diesem Zusammenhang folgendes: 1) Man kann niemals genügend Daten ermitteln, um zu beweisen, dass die Gewichtsdaten exakt durch eine bestimmte Verteilung beschrieben werden, das heißt ohne die geringste Abweichung. 2) Die theoretische Normalverteilung hat keine Grenzen. Das bedeutet, dass es theoretisch möglich ist, dass die Packungen Butter jeden möglichen Wert annehmen können, auch negative Werte. 3) Praktisch ist dies sehr unwahrscheinlich, da für eine Normalverteilung mit einem Mittelwert und der Standardabweichung der Mittelwert mit einer Wahrscheinlichkeit von in dem Bereich zwischen liegt 95,5% in dem Bereich zwischen 2 liegt 99,7% in dem Bereich zwischen 3 liegt. 68% In dem Beispiel der Butterpackungen würde man 99,7% in dem Bereich zwischen 250 3 7, 5 erwarten, d.h. zwischen 227,5g und 272,5g. Theoretisch wäre es auch möglich eine Packung zu finden, die 280 g wiegt, also außerhalb des angegebenen Bereiches. Die ist jedoch so unwahrscheinlich und dieser Fall wirklich auftreten sollte, legt das die Vermutung nahe dass das Modell falsch ist. 4.2 Bezeichnung Die Schreibweise X N , 2 bedeutet, dass die Variable X normalverteilt ist mit einem Mittelwert und der Standardabweichung . X N (27.0;16) bedeutet, dass die Variable X normalverteilt ist mit dem Mittelwert 27 und der Standardabweichung 4,0. 45 C. Lerch-Reisp Grundlagen Statistik 4.3 Mittelwert und Standardabweichung einer Stichprobe ( central limit theorem) Beispiel: Eine Bäckerei backt Brote mit einem Durchschnittsgewicht von 900g und einer Standardabweichung von 20 g. Ein Kontrolleur wählt 4 Brote zufällig aus und wiegt sie. Es ist sehr unwahrscheinlich, dass das mittlere Gewicht der Stichprobe exakt 900g ergibt. Die Stichprobe ergibt ein mittleres Gewicht von 906 g. Eine zweite Kontrolle ergibt ein mittleres Gewicht von 893 g. Die Stichproben können unbegrenzt wiederholt werden und das Durchschnittsgewicht ermittelt werden. Der Mittelwert der Stichprobe wird variieren und auch einer Verteilung folgen. ( Verteilung des Mittelwertes der Stichprobe) Wir betrachten eine zufällige Stichrobe der Größe n einer Verteilung (Normalverteilung) mit dem Mittelwert und der Standardabweichung . Für den Mittelwert der Stichprobe x gilt: 1) Mittelwert und der Standardabweichung n . 2) Der Mittelwert ist normalverteilt vorausgesetzt, dass n hinreichend groß ist. Je größer n, desto besser ist die Approximation. Beispiel: Wir betrachten eine Stichprobe mit n=100, von einer Verteilung mit dem Mittelwert 75, 2 kg, Standardabweichung 8, 5 kg. Der Mittelwert der Stichprobe ist dann normalverteilt mit dem Mittelwert 75,2 kg und der 8,5 Standardabweichung von 0,85 kg. 100 Je größer die Probe, desto kleiner wird die Standardabweichung der Stichprobe. (Bild) 46 C. Lerch-Reisp Grundlagen Statistik Aufgaben und Lösungen 1) Warum werden in den Tabellen einer Standardnormalverteilung negative z – Werte nicht tabelliert? 2) Gegeben sei eine Standard-Normalverteilung. Finden Sie den z-Wert, der mit einer Wahrscheinlichkeit von a) 0,06 b) 0,92 überschritten wird. 3) Eine Normalverteilung hat einen Mittelwert von 12 und eine Standardabweichung von 4. Finde die Wahrscheinlichkeit, dass die Variable a) den Wert 10 überschreitet b) kleiner als 5 ist c) zwischen 14 und 16 liegt d) zwischen 8 und 15 liegt. 4) 47 C. Lerch-Reisp Grundlagen Statistik 1) Die Verteilung ist symmetrisch um den Mittelwert 0. 2) a) 1,555 ii) P= 0,94 (Z=1,5548) -1,405 P=0,92 (Z=1,4051) 3) a) 0,691 b) 0,0401 X Z a) P( X 0,5) P( X 0,5) 0, 691 c) 0,150 d) b) P ( X 7 / 4) P( X 1, 75) 0,95994 1-0,95994=0,04006 0,615 c) P( X 1) P( X 0,5) 0,84134 0, 69146 0,14988 0,150 d) P( X 3 / 4) P( X 0, 75) 0, 77337 P( X 1) P( X 1) 1 0,84134 0,15866 0,77337-0,15866=0,61471 4) 0 5) Der Mittelwert einer großen Stichprobe ist normalverteilt 6) a) 0,309 b) 19,5 Standardisierung 21 20 1 P X 21 1 0,69146 0,30854 P 0,5 0,69146 z 10 2 25 7) Es ist unmöglich, dass Mäuse negative Gewichte haben können. Eine Normalverteilung würde eine eine infinitesimal kleine aber von Null verschiedene Wahrscheinlichkeit geben, dass eine neugeborene Maus ein negatives Gewicht hat. 48 C. Lerch-Reisp Grundlagen Statistik Korrelation und Regression Wir betrachten nun ein Paar von (Zufalls)variablen X und Y. Wir wollen untersuchen, ob eine Abhängigkeit (lineare) zwischen den beiden Größen besteht und wie man den Zusammenhang bzw. die Wechselwirkung zwischen den Größen beschreiben kann. Beispiel: 1)Bei einer bestimmten Stahlsorte interessiert man sich z.B. dafür, ob zwischen dem Kohlenstoffgehalt X und der Zugfestigkeit Y ein Zusammenhang besteht, d.h. die beiden Zustandsvariablen korreliert sind. 2) Zwischen der Drehzahl X und der Leistung Y eines Motors besteht ein bestimmter Zusammenhang, d.h. die beiden Größen sind korreliert. Darstellung des Zusammenhangs durch ein Streuuungsdiagramm (Punktwolke) Positive, negative oder gar keine Korrelation, quadratische Korrelation Bilder! Definition: Es seien x 1 , x2 , y 1 , y2 , xn die Werte einer Messreihe für eine Variable X und yn die Werte einer Messreihe (Stichprobe) der Variablen Y: 1 n Es ist x xi n i 1 n 1 n y yi n i 1 Mittelwerte 2 sxx n 1 2 xi x n 1 i 1 S yy yi y s yy n 1 2 yi y n 1 i 1 sxy n 1 xi x yi y n 1 i 1 S xx xi x i 1 n 2 i 1 n S xy xi x yi y i 1 r S xy S xx S yy r sxy sxx s yy empirische Kovarianz Korrelationskoeffizient Zeigen Sie, dass der Korrelationskoeffizient auch wie folgt dargestellt werden kann: 49 C. Lerch-Reisp sxy Grundlagen Statistik n 1 xi yi n x y n 1 i 1 n n n x y i 1 n S xy xi yi i i 1 i i 1 n r x y n x y i i 1 i n n 2 2 2 2 x n x i yi n y i 1 i 1 n x y n r xi yi i 1 n n xi x 2 i 1 i n i 1 i i 1 i n i 1 2 n 2 n n yi y 2 i 1 i n i 1 Es gilt immer 1 r 1 r= +1, alle Punktpaare liegen auf einer Geraden (positive Korrelation) r= -1, alle Punktpaare liegen auf einer Geraden mit negativer Korrelation r =0 keine lineare Korrelation erkennbar Beispiel: i 1 2 3 4 5 6 7 8 xi 1 2 5 6 8 10 11 13 yi 1 1 3 4 5 7 9 10 50 C. Lerch-Reisp Grundlagen Statistik Regressionsgerade : y a x b Methode der kleinsten Quadrate: y y S xy x x S xx n x y i i 1 y y i n xy n x i 1 n i x x 2 x2 b y ax 51 C. Lerch-Reisp Grundlagen Statistik Testklausur Wahrscheinlichkeitsrechnung und Statistik 1) Im Rahmen der Gesundheitsvorsorge werden 50 Jungen zufällig ausgewählt und befragt, ob sie lieber abnehmen, zunehmen oder ihr Gewicht halten möchten. Wenn in Deutschland der Anteil der Jungen, die zunehmen möchten 15 % beträgt, wie groß ist die Wahrscheinlichkeit, dass in der Stichprobe A) 4 oder weniger Jungen zunehmen möchten B) 4 oder mehr zunehmen möchten. 2) Der Besitzer einer Tageszeitung plant die Übernahme eines Fußballclubs. Viele Anhänger und Förderer des Clubs schreiben an den Besitzer und beziehen zu der Übernahme Stellung. Von allen Briefen sind 90 % gegen die Übernahme, 4% sind neutral und 6% befürworten den Kauf. a) Wenn zwei Briefe zufällig gezogen werden, bestimmen sie die Wahrscheinlichkeit, dass i) beide gegen den Kauf votieren. ii) einer gegen den Kauf ist und der andere neutral ist. Die Wahrscheinlichkeit, dass ein Brief veröffentlicht wird beträgt 0,01 wenn er gegen den Kauf ist 0,24 wenn er neutral ist 0,65 wenn er für den Kauf ist. Bestimmen Sie die Wahrscheinlichkeit, dass ein zufällig ausgewählter Brief a) gegen den Kauf ist und veröffentlicht wird b) veröffentlicht wird. 3) Die Länge von Dorschen, die von einem Fischkutter gefangen werden, können als Stichprobe einer Normalverteilung mit einem Mittelwert von 74 cm mit einer Standardabweichung von 10 cm angesehen werden. Bestimmen Sie die Wahrscheinlichkeit dafür, i) dass ein zufällig ausgewählter Dorsch eine Länge zwischen 70 cm und 75 cm hat. ii) dass die mittlere Länge von 90 zufällig ausgewählten Dorschen größer als 73 cm ist. 4) Welchen Mittelwert und welche Varianz besitzt eine stetig verteilte Zufallsvariable X mit der Dichtefunktion f x ax 2 1 x 0 x 1 52 C. Lerch-Reisp Grundlagen Statistik Lösungen: 1a) P x 4 0,112 binompdf (50, 0.15, 4) b) P 1 P X 3 0,954 2ai) P P x kein Kauf P x kein Kauf 0,9 0,9 0,81 ii) P P x kein Kauf P x neutral P x neutral P x kein Kauf 0,9 0, 04 0, 04 0,9 0,36 0,36 0, 72 2b i) P P x kein Kauf P x Veröffentlichung 0,9 0, 01 0, 009 ii) P 0,9 0, 01 0, 04 0, 24 0, 65 0, 06 0, 0576 3 ai) Normalcdf 70,75,74,10 0,195 0,53983 0,34458 z1 z2 ii) x x x 70 74 4 0, 4 10 10 1 P 0, 4 1 0, 65542 0,34458 75 74 1 0,1 10 10 P z2 P 0,1 0,53983 73 74 90 0,94868 0,95 10 10 90 N 0,1 n P z 0,95 0,82894 0,829 1 4) a x 2 1 x dx 1 a 12 0 1 12 x3 x 4 dx 0 1 3 5 E X 2 12 x 4 x5 dx 2 5 2 E X 2 2 0 1 25 1 5 53