5 CK Statistik 15. Mai 2016 Deskriptive Statistik Zentral- und Streuungsmaße Musterbeispiel: a) Die Einkommensverteilung in einer Grundgesamtheit sieht wie folgt aus: Einkommen 0 - 200 200 - 400 400 - 600 600 - 800 5.000 in Tausend GE abs. Häufigk. 800 2.500 1.200 499 1 Ermitteln Sie die relativen Häufigkeiten. Wie groß ist der arithmetische Mittelwert, der Modus, der Median, die Streuung, die Spannweite, die Interquartilspannweite und der Variationskoeffizient? Zeichnen Sie die Volkseinkommenskurve (Lorenzkurve). Welcher Prozentsatz der Bevölkerung verdient 50 % des Volkseinkommens? b) Die Inflationsrate eines Staates weist 3 Jahre lang einen Wert von 12 %, 1 Jahr lang –10 % und 5 Jahre lang 3 %. Wie groß ist die mittlere Inflationsrate? Wie hoch ist der VPI am Ende des letzten Jahres, wenn er am Anfang den Wert 123 hatte. Wie hoch ist die durchschnittliche Inflationsrate, wenn der VPI 1985 den Wert 132 und 1996 den Wert 172 hatte? c) Ein PKW fährt 60 % einer Strecke mit 80 km/h, 10 % mit 20 km/h und den Rest mit 120 km/h. Wie hoch ist die mittlere Geschwindigkeit? Wann muß man harmonisch mitteln? a) Einkommensverteilung: Als Repräsentant der Klassen wird das arithmetische Mittel der Klassengrenzen genommen: Klasse 100.000 300.000 500.000 700.000 5.000.000 Summe Hi 800 2.500 1.200 499 1 5.000 hi 16,00 n x H i x i i 1 n H = i i 1 = Error! = 356.860 Modus (häufigster Wert) = 300.000 Median (Zentralwert): Der Median ist das arithmetische Mittel aus x2500 und x2501. Da beide Werte 300.000 sind, ist der Median 300.000,--. Die Streuung bzw. Standardabweichung ist die Wurzel aus dem arithmetischen Mittel der Quadrate der Abweichungen zum Mittelwert: x x n 2 i s i 1 Hi n H i i 1 Die Berechnung ohne Hilfsmittel ist mühsam und sollte über ein Spread-sheet-Programm bzw. mit Hilfe eines statistiktauglichen TRs erledigt werden: s = 182.097 GE Mag. Wolfgang Streit Seite 1 von 20 5 CK Statistik 15. Mai 2016 Die Spannweite ist die Differenz zwischen größtem und kleinstem Merkmalswert, also 4.900.000,--. Die Interquartilspannweite ist die Differenz zwischen Median der oberen Hälfte und des Medians der unteren Hälfte: Median der oberen Hälfte: Median der unteren Hälfte: Interquartilspannweite: 200.000,-Der Variationskoeffizient ist der Quotient VC = Error! also: VC = 51 %. Dies ist ein sehr hoher Wert! Die Lorenzkurve ist der Graph der Funktion der relativen kumulierten Häufigkeiten der Einkommen abhängig vom relativen Anteil der Einkommensbezieher. Es ist folgende Tabelle zu erstellen: Eink. 100.000 300.000 500.000 700.000 5.000.000 abs.H. kum.H. 0,00 800 0,16 2.500 0,66 1.200 0,90 499 1,00 1 1,00 kum. VE 80.000.000 830.000.000 1.430.000.000 1.779.300.000 1.784.300.000 rel. kum VE 0,00 0,04 0,47 0,80 1,00 1,00 Es ergibt sich folgende Darstellung: Lorenzkurve rel. kum. Häufigk. d. Eink. 1,00 0,80 0,60 0,40 0,20 0,00 0,00 0,20 0,40 0,60 0,80 1,00 kum . Ant. der Einkom m ensbezieher Das Volkseinkommen beträgt 1.784.300.000,-- GE. 50 % davon sind 892.150.000,-- GE. Die ersten 800 + 2.500 = 3.300 Leute verdienen zusammen 830.000,-- GE (Tabelle). Es ist also zu rechnen: Anzahl der Leute, die 50 % des VE verdienen= 800 + 2.500 + Error! 3.424 (das sind 68,5 % der Bevölkerung). Die Einkommensverteilung dieser Population weist folgende Eigenschaften auf: Die meisten Leute verdienen 300.000,-- GE / Jahr. (Modus). Die Hälfte der Leute verdient unter 300.000,-- Jahr. (Median). Das Durchschnittseinkommen beträgt 356.860,-- und streut mit 182.079,-- um diesen Mittelwert. Die Mag. Wolfgang Streit Seite 2 von 20 5 CK Statistik 15. Mai 2016 Streuung ist sehr groß, der Variationskoeffizient ist 51 %. Eine Person (stellt 0,2 ‰ der Bevölkerung dar) allein verdient 2,8 ‰ des Volkseinkommens. b) Geometrisches Mittel: Es ist das geometrische Mittel der Wachstumsfaktoren (= 1 + Wachstumsrate) zu bilden: n ~ x Hi i 1 n x Hi i = Error! = 1,043 i 1 Die mittlere Inflationsrate beträgt daher 4,3 %. VPI(letztes Jahr) = 123 · 1,0439 = 179,7 Durchschnittliche Inflationsrate = Error! = 1,024. Die durchschnittliche Inflationsrate beträgt 4,3 %. Der VPI am Ende des letzten Jahres beträgt 179,7. Die durchschnittliche Inflationsrate beträgt 2,4 %. c) Harmonisches Mittel Der zugrundeliegende Zusammenhang zwischen Geschwindigkeit (Merkmalswert) und Häufigkeit (Strecke) ist: Geschwindigkeit = Error! oder Zeit = Error!. Man muß also zuerst die Gesamtzeit ermitteln, indem man die erwähnten Bruchterme addiert. Die mittlere Geschwindigkeit ist dann Error!. Dies ist der grundlegende Vorgang des harmonischen Mittels (Verallgemeinerung dieses Algorithmus). Geschwindigkeiten müssen harmonisch gemittelt werden. n xˆ H i 1 n i Hi i 1 xi weil n h i 1 i 1 1 = hi i 1 xi n d.h. das harmonische Mittel ist der Kehrwert des arithmetischen Mittels der Kehrwerte der Merkmalswerte. Berechnung in Stufen: arithmetisches Mittel der Reziprokwerte = 0 0 0 6;80 + 1;20 + 3;120 = 0,015 1;0 harmonisches Mittel = 015 = 66,7 km/h. Die mittlere Geschwindigkeit ist 66,7 km/h. Harmonische Mittel müssen dann verwendet werden, wenn der Merkmalswert als Funktion zweier Parameter errechnet wird und der Zusammenhang zwischen Häufigkeit und Merkmalswert so aussieht: Parameter = Error!. Mag. Wolfgang Streit Seite 3 von 20 5 CK Statistik 15. Mai 2016 Kombinatorik Musterbeispiel: a) Wieviele Worte kann man mit den Buchstaben des Wortes „WIEN“ bilden, wenn jeder Buchstabe nur einmal vorkommen darf und auch vorkommen muß? Was ist eine Permutation? Was bedeutet n!. b) Wieviele Worte kann man mit den Buchstaben des Wortes „LEERE“ bilden, wenn jeder Buchstabe nur so oft wie im Originalwort vorkommen darf? c) Wieviele verschiedene Anordnungen von 4 verschiedenen Zeichen aus einer Menge von 6 Zeichen gibt es? Was ist eine Variation? Wie kürzt man Error!. d) Wieviele verschiedene Anordnungen von 4 Zeichen aus einer Menge von 6 Zeichen gibt es. Was ist eine Variation mit Wiederholung? e) Wie oft kann man 4 verschiedene Zeichen aus einer Menge von 6 Zeichen auswählen. Was ist eine Kombination? f) Was ist ein Binomialkoeffizient und welche Eigenschaften hat er? Berechnen Sie (300;3) g) Wieviele Lottoscheine muß man ausfüllen, damit man mit Sicherheit einen 6-er hat. Wieviele 5-er mit Zusatzzahl tippt man damit? Wieviele Totoscheine muß man ausfüllen, um mindestens einen „12-er“ zu tippen. a) Permutation: Die Kombinatorik beschäftigt sich mit Anordnungen in endlichen Mengen und dem Abzählen der verschiedenen Anordnungsmöglichkeiten unter geeigneter Bedingungen. Überlegung: Für die Besetzung des ersten Buchstabens gibt es 4 Möglichkeiten (W I E N ). Für jede Besetzung des ersten Buchstabens gibt es 3 Besetzungen des 2. Buchstabens, weil noch drei Buchstaben überbleiben, usw. Es gibt also 4 · 3 · 2 · 1 = 24 Möglichkeiten. Definition: Eine n-stellige Permutation ist eine bijektive (d.h. eineindeutige Abbildung) einer Menge mit n Elementen (der Mächtigkeit n) auf sich selbst. Eine Permutation stellt also eine Anordnung von n Elementen auf n Plätze (zu einem n-Tupel) dar. Die Reihenfolge ist von Bedeutung. Kein Element darf mehr als einmal vorkommen. Definition: n Das Produkt 1 · 2 · … · n = i = n! i 1 heißt n Fakultät bzw. n Faktorielle. Zusatzdefinition: 0! = 1 Die Anzahl der n-stelligen Permutationen ist Pn = n! Mit den Buchstaben des Worte WIEN kann man 24 Worte mit 4 Buchstaben bilden, wenn jeder Buchstabe genau einmal vorkommen darf. b) Permutation mit Wiederholung: Überlegung: Im Wort LEERE kommen die Buchstaben mit folgenden Häufigkeiten vor: L E R 1 3 1 Es handelt sich um eine Permutation mit Mag. Wolfgang Streit Seite 4 von 20 5 CK Statistik 15. Mai 2016 Wiederholung. (Anordnung von 5 Elementen auf 5 Plätze, wobei manche öfter vorkommen. Wären die E’s unterscheidbar, gäbe es 5! = 120 Anordnungen. Alle jene, die sich nur durch eine Permutation der drei E’s unterscheiden, sind jedoch nur einmal zu zählen. Daher: Anzahl = Error!= Error!= 20 Definition: Sind unter den Elementen eines n-Tupels k voneinander verschieden und treten diese mit den Häufigkeiten pi (i= 1 … k) auf (wobei pi = n ist), dann heißt dieses n-Tupel n-stellige Permutation mit pi Wiederholungen. Die Anzahl der n-stelligen Permutationen mit pi p n! Wiederholungen ist ni k P p ! i i 1 Mit den Buchstaben des Worte LEERE kann man 20 Worte mit 4 Buchstaben bilden, wenn jeder Buchstabe genau so oft wie im Original vorkommen darf. c) Variation: Die Zeichen - 6 - Tupel sei {A, B, C, D, E, F}. Die Anordnung kann man so kodieren (Beispiel): Stelle: 1 2 3 4 Belegung A C D F and. Bel.: C A E B usw. Man kann aber auch so kodieren: Belegung A B C D E F belegte St. 1 0 2 3 0 4 and. Bel.: dann ist es ein bekannter Fall, nämlich eine Permutation mit Wiederholung mit 6 Elementen, wobei jeweils 2 gleich sind (die Belegung 0, die angibt, daß ein Buchstabe in der Originalanordnung nicht vorkommt). Es gibt daher Error! = Error!= 360 Anordnungen. Aus einer Menge von 6 Zeichen kann man 360 Anordnungen von jeweils 4 dieser Zeichen bilden, wobei keines dieser Zeichen wiederholt werden darf. Definition: Wählt man aus n verschiedenen Elementen ein k-Tupel so heißt diese Anordnung Variation k-ter Ordnung mit n Elementen ohne Wiederholung. Eine Variation stellt also eine Anordnung von n Elementen auf k Plätze dar. Die Reihenfolge ist von Bedeutung. Kein Element darf mehr als einmal vorkommen. Mag. Wolfgang Streit Seite 5 von 20 5 CK Statistik 15. Mai 2016 Die Anzahl der Variationen k-ter Ordnung mit n Elementen ist Vn;k = Error! Error! = Error!= = n (n – 1) (n – 2) Error! = n (n – 1) (n – 2) d) Variation mit Wiederholung: Für jede der 4 Stellen gibt es 6 Belegungen, daher: 64 = 1.296 Möglichkeiten Aus einer Menge von 6 Zeichen kann man 1.296 Anordnungen von jeweils 4 dieser Zeichen bilden, wobei alle dieser Zeichen wiederholt werden dürfen. Definition: Ein k-Tupel aus Elementen einer n-elementigen Menge heißt Variation k-ter Ordnung mit n Elementen mit Wiederholung. Die Anzahl der Variationen k-ter Ordnung mit n Elementen mit Wiederholung ist V(w)n;k = nk. e) Kombination: Bei der Auswahl ist die Reihenfolge der ausgewählten Elemente nicht von Bedeutung. Daher sind z. Bsp. die 4Tupel: A C D F A C F D A D C F usw. im oberen Sinne gleichwertig. Mit Berücksichtigung der Reihenfolge entspricht die Aufgabenstellung einer Variation ohne Wiederholung. Ihre Anzahl ist durch 4! zu dividieren, weil jeweils 4-Tupel, die durch Permutation entstehen, nur einer zählbaren Kombination entsprechen. Es gilt also: K46 6! = Error! = 15 4! 2! Aus einer Menge von 6 Zeichen kann man 15 mal jeweils 4 verschiedene Zeichen auswählen. Definition: Ein k-elementige Teilmenge einer n-elementigen Menge heißt Kombination k-ter Ordnung mit n Elementen ohne Wiederholung. Mag. Wolfgang Streit Seite 6 von 20 5 CK Statistik 15. Mai 2016 Die Anzahl der Variationen k-ter Ordnung mit n Elementen mit Wiederholung ist n n! c(n; k) . k! n k! k f) Binomialkoeffizient: Der Term (n;k) = Error!heißt Binomialkoeffizient. Eigenschaften: (n;k) = (n;n – k) Symmetrie: (n;0) = (n;n) Spezielle Werte: (n;1) = (n;n – 1) Spezielle Werte: Pascalsches Dreieck: Der Binomialkoeffizient (n;k) steht im Pascalschen Dreieck in der n.-ten Zeile an k.-ter Stelle. 300 = Error!= Error! = 4.455.100 3 g) Lotto und Toto Beim Lotto werden aus 45 Zahlen 6 ausgewählt, wobei die Reihenfolge nicht von Bedeutung ist: Es handelt sich also um eine Kombination: c(45;6) = (45;6) = 8.145.060. Für die „5-er mit Zusatzzahl“ folgende Überlegung: Um 5 richtige zu tippen, muß man 5 von 6 richtigen Zahlen erraten und für jede dieser Kombinationen auch eine aus den verbleibenden 39 falschen, also (6;5) (39;1) = 6 · 39 = 234 Zusätzlich ist noch die Zusatzzahl richtig zu tippen. Dafür gibt es noch 39 Möglichkeiten, nur eine davon ist richtig, also: Anzahl der „5-er mit ZZ“ = Error!= 6. Totoschein: 12 Tips mit den Varianten 1, 2, X (gewonnen, verloren, unentschieden) An jeder der 12 Stellen kann jedes Zeichen stehen, auch Wiederholungen sind möglich, die Reihefolge ist von Bedeutung Variation mit Wiederholung. 312 = 531.441 Wieviele 11-er: 1 Tip darf falsch sein, er kann an jeder Stelle stehen 12 „11-er“. Wieviele 10-er: 2 Tips dürfen falsch sein, 10 richtig, also 2 f und 10 r in 12 Stellen anordnen: Permutation mit Wiederholung: Error!= 66. Mag. Wolfgang Streit Seite 7 von 20 5 CK Statistik 15. Mai 2016 Will man beim Lotto „6 aus 45“ unbedingt gewinnen, dann muß man 8.145.060 verschiedene Tips abgeben. Man tippt damit 1 „6-er“, 6 „5-er mit Zusatzzahl“, 234 „5-er“, 11.115 „4-er“ und 182.780 „3-er“. Will man beim Fußballtoto (12 Ergebnisse sind zu erraten - 3 Ausgänge sind möglich) unbedingt gewinnen, muß man 531.441 Tips abgeben. Man tippt damit 1 „12-er“, 12 „11-er“ und 66 „10-er“. Musterbeispiel: Elementare Wahrscheinlichkeitsrechnung In einer Klasse von 30 Schülern sind 10 Burschen. 25 % der Mädchen und 30 % der Burschen sind Brillenträger. Erstellen Sie ein Baumdiagramm und das Mengendiagramm für diese Situation und ermitteln Sie: a) den Anteil der Gruppe „Mädchen oder Brillenträger“. b) den Anteil der Gruppe „Mädchen und Brillenträger“ c) den Anteil (die Wahrscheinlichkeit) der Brillenträger unter den Mädchen d) die Wahrscheinlichkeit, daß man bei zufälliger Auswahl ein Mädchen unter den Brillenträgern auswählt e) den Anteil der Brillenträger. a) Additionssatz: Baumdiagramm: Start B w m NB B NB Mengendiagramm: W(W B) = W(W) + W(B) – W(WB) = Error! = Error! oder aus dem Baumdiagramm: Regel: Die Astbeschriftungen sind die bedingten Wahrscheinlichkeiten. Die Endwahrscheinlichkeit ergibt sich aus der Summe der Produkte der durchlaufenen bedingten Wahrscheinlichkeiten. W(W B) = Error! = 0,766… = Error! Mag. Wolfgang Streit Seite 8 von 20 5 CK Statistik 15. Mai 2016 Additionssatz („oder“): W(A B) = W(A) + W(B) – W(A B) Bedingte Wahrscheinlichkeit: W(A B) ist die Wahrscheinlichkeit, daß A eintritt, wenn B schon feststeht. Multiplikationssatz („und“): W(A B) = W(A) · W(B A) Die Wahrscheinlichkeit aus dieser Klasse ein Mädchen oder eine(n) Brillenträger(in) auszuwählen ist 76,7 %! b) Multiplikationssatz: W(W B) = Error! = 0,166… = Error! Die Wahrscheinlichkeit aus dieser Klasse ein Mädchen mit Brillen auszuwählen ist 16,7 %! c) Bedingte Wahrscheinlichkeit: W(B W ) = 0,25 (lt. Angabe - dieser Wert wird in das Baumdiagramm eingezeichnet) Die Wahrscheinlichkeit aus den Mädchen dieser Klasse eine Brillenträgerin auszuwählen, ist 25 %. d) Satz von Bayes: W(W B ) = Error!= Error!= Error!= 0,625 Die Wahrscheinlichkeit aus den Brillenträgern dieser Klasse ein Mädchen auszuwählen ist 62,5 %. e) Totale Wahrscheinlichkeit: W(B) = Error! = Error!= 26,7 % Die Wahrscheinlichkeit aus dieser Klasse eine(n) Brillenträger(in) auszuwählen ist 26,7 %. Mag. Wolfgang Streit Seite 9 von 20 5 CK Musterbeispiel: Statistik 15. Mai 2016 Verteilungen Hypergeometrische Verteilung Aus einem Kartenspiel mit 20 Karten, 4 davon sind Asse, werden jeweils 5 Karten ohne Zurücklegen gezogen. Wie sieht die Wahrscheinlichkeitsverteilung aus, wie hoch ist der Erwartungswert und wie sind die Quoten für ein Gewinnspiel bei „fairem Spiel“ anzusetzen? Wie hoch ist die Gewinnerwartung, wenn für die Ziehung von mindestens 2 Assen für eine Einsatz von EUR 100,-- 300,-- ausbezahlt werden? Wer gewinnt wieviel nach 1.000 solcher Spiele? In einer endlichen (und kleinen) Grundgesamtheit vom Umfang N gibt es M Merkmalträger. Es wird eine Stichprobe vom Umfang n gezogen werden. Wie groß ist die Wahrscheinlichkeit, daß in der Stichprobe k Merkmalträger auftreten? Die Anzahl der möglichen Stichproben ist (N;n) . Die Anzahl der günstigen Fälle ist: Wieviele Möglichkeiten gibt es, aus M Merkmalträgern k auszuwählen: (M;k) . Für jede dieser Möglichkeiten gibt es N M Möglichkeiten, aus N – M Nichtmerkmalträgern nk n – k Nichtmerkmalträger auszuwählen. Daher: W(k) = h(k) = Error! Derive: Datei – Laden – Zusatzdatei – Probabil.mth hypergeometric_density (k,n,M,N) bzw. hypergeometric_distribution(k,n,M,N) Dies ist die Formel für die hypergeometrische Verteilung. In unserem Fall ist: h(0) = Error! = 0,282 h(1) = Error! = 0,470 h(2) = Error! = 0,217 h(3) = Error! = 0;031 h(4) = Error! = 0;001 Die Wahrscheinlichkeitsverteilung sieht so aus: 0 Asse 28,2 % 1 As 47,0 % 2 Asse 21,7 % 3 Asse 3,1 % 4 Asse 0,1 % Der Erwartungswert ist 0·0,282 + 1·0,470 + 2·0,217 + 3·0,031 + 4·0,001 = 1 Unter der Gewinnerwartung versteht man: Gewinnerwartung = = Error! = Gewinnquote * Gewinnwahrscheinlichkeit. Bei einem fairen Spiel ist die Gewinnerwartung 1. Faire Quoten wären daher: 0 Asse 1 2 3 4 As Asse Asse Asse Mag. Wolfgang Streit 3,549 = 1;0 282 2,130 4,614 32,300 969,000 Seite 10 von 20 5 CK Statistik 15. Mai 2016 Die Wahrscheinlichkeit, mindestens 2 Asse zu ziehen ist h(2) + h(3) + h(4) = 0,249. Gewinnerwartung = 3 · 0,249 = 0,746 bei einem Spiel. Bei 1.000 Spielen zu EUR 100,-- Einsatz ist der zu erwartende „Auszahlungsbetrag“ EUR 74.617,-- bei einem Einsatz von EUR 100.000,-- Die Gewinnerwartung für ein Spiel: „Mindestens 2 Asse“ mit der Quote 3 ergibt für 1.000 Spiele die Gewinnerwartung – 25.383,--. Der Bankhalter gewinnt also EUR 25.383,-- Musterbeispiel: Verteilungen Binomialverteilung Bei einem Roulettespiel (Zahlen von 0 bis 36) setzt Otto Gambler immer auf 6 Zahlen (z.Bsp. 4 bis 9). Wie groß ist die Wahrscheinlichkeit, daß er bei 10 Spielen nie bzw. mindestens 3 mal gewinnt? Wie oft muß er spielen, damit er mit einer Wahrscheinlichkeit von 99 % mindestens 2 mal gewinnt? In einer unendlich großen (die Einzelwahrscheinlichkeit eines Ereignisses ändert sich nach jedem Versuch nicht) Grundgesamtheit gibt es einen Merkmalträgeranteil von p. Es wird eine Stichprobe vom Umfang n gezogen werden. Wie groß ist die Wahrscheinlichkeit, daß in der Stichprobe k Merkmalträger auftreten? Eine Möglichkeit ist das k-malige Auftreten des Merkmals und dann das (n-k)-malige Auftreten des Nichtmerkmals. Die Wahrscheinlichkeit dafür (in dieser Reihefolge) ist pk · (1 – p)n – k . Allerdings ist auch jede Permutation dieser Reihefolge ein günstiges Ereignis, also ist die Einzelwahrscheinlichkeit noch mit Error! = Error!. Daher: b(k) = (n;k) pk · (1 – p)n – k Bei uns hat das Merkmal „gewonnenes Spiel“ die Wahrscheinlichkeit p = Error! b(0) = (10;0) Error!Error!= 0,17= Error! Mindestens 3 mal gewinnen heißt: b(3) + b(5) + b(6) + … + b(10) = = 1 – b(0) – b(1) – b(2) = =1 – (10;0) Error!Error!– Error!Error!Error!– – (10;2) Error!Error!= = 1 – 0,17 – 0,33 – 0,287 = 0,212 EXCEL: BINOMVERT(k;n;p;Kumuliert) Wenn Kumuliert = 0 dann liefert die Funktion den Einzelwert b(k), wenn Kumuliert = 1 dann liefert die Funktion gleich den Wert der Verteilungsfunktion B(k) = b(0) + … + b(k). Also: W(3, …, 10) = 1 – B(2) =1 – BINOMVERT(2;10;6/37;1). Mag. Wolfgang Streit Seite 11 von 20 5 CK Statistik 15. Mai 2016 Derive: Datei – Laden – Zusatzdatei – Probabil.mth binomial_density (k,n,p) bzw. binomial_distribution(k,n,p) Die Wahrscheinlichkeit, daß Otto Gambler nie gewinnt ist 17 % (d.h. bei ca. jeder 6 Serie von 10 Spielen kann das vorkommen). Die Wahrscheinlichkeit, daß er mindestens 3 - mal gewinnt ist 21,2 %. Ansatz: 0,99 = W(2;3;…n) = 1 – b(0) – b(1) = 1 – B(1) 0,01 = b(0) + b(1) 0,01 = (n;0) Error!Error!+ Error!Error!Error! 0;01 = Error!+ n Error!Error! Dies ist eine transzendente Gleichung (Gemisch aus Polynom und Exponentialgleichung) und nur näherungsweise zu lösen (SOLVER bzw. ZIELWERTSUCHE in EXCEL) n = 38,63 Otto Gambler muß mindestens 39 Spiele spielen, damit er mit 99 %-iger Sicherheit mindestens 2 mal gewinnt! Musterbeispiel: Verteilungen Poissonverteilung a) Die Anzahl der Fehler in einer Schularbeit ist poissonverteilt mit dem Mittelwert 7. Der Notenschlüssel ist: Sehr gut bei weniger als 3 Fehler, Nicht genügend bei mehr als 12 Fehler. Befriedigend zwischen 7 und 9 Fehler (incl.). Wie hoch sind die Wahrscheinlichkeiten für Sehr gut, Befriedigend und Nicht genügend? b) Der Lehrer will nicht mehr als 5 % negative Beurteilungen geben. Auf welchen Wert muß er den Mittelwert der Fehler bringen, um das zu erreichen? a) Ermittlung von Wahrscheinlichkeiten: Die Poissonverteilung entsteht aus der Binomialverteilung durch folgende Grenzwertbildung: n p0 np µ: p(k) = Error! Für die Berechnung von p(k) gibt es vier Möglichkeiten: 1. in die Formel einsetzen 2. durch die EXCEL-Funktion POISSON(k;µ;kumuliert) 3. aus der Tabelle der Verteilungsfunktion P(k). 4. in Derive poisson_distribution(k,µ) Sehr gut - weniger als 3 Fehler: W(0;1;2) = p(0) + p(1) + p(2) = Error!+ … = 0,001 + 0,006 + 0,022 = 0,030 Error! oder: W(0;1;2) = POISSON(2;7;1) = 0,030 (EXCEL) oder: W(0;1;2) = P(2) aus der Tabelle. Mag. Wolfgang Streit Seite 12 von 20 5 CK Statistik 15. Mai 2016 Befriedigend - 7 bis 9 Fehler: W(7;8;9) = p(7) + p(8) + p(9) = P(9) – P(6) = 1;2 0,830 – 0,450 = 0,380 = 63 Nicht genügend - mehr als 12 Fehler: 1;37 W(13; 14; …) = 1 – P(12) = 1 – 0,973 = 0,027 = 03 Die Wahrscheinlichkeiten für die Beurteilungsstufen sind: Sehr gut 3,0 % Befriedigend 38,0 % Nicht genügend 2,7 % d.h. jede 34. Schularbeit ist ein Sehr gut, jede 2,6. Schularbeit ist ein Befriedigend, jede 37. Schularbeit ist ein Nicht genügend. b) Ermittlung von µ: Ansatz: W(13; 14; …) = 1 – P(12) < 0,05 0,95 < P(12) Nachsehen in der Tabelle bzw. in EXCEL liefert: µ = 7,69 Der Fehlerdurchschnitt in der Klasse muß bei 7,7 liegen, damit nicht mehr als 5 % Nicht genügend auftreten. Mag. Wolfgang Streit Seite 13 von 20 5 CK Musterbeispiel: Statistik 15. Mai 2016 Stetige Verteilungen Allgemein stetige Verteilung a) Die Dichtefunktion der Wartezeit auf eine Straßenbahn sei von folgender Form: f(x) = n · e- kx im Bereich [0 / ). x ist die Wartezeit in Minuten. k ist so zu ermitteln, daß die Wahrscheinlichkeit, weniger als 5 Minuten zu warten 60 % beträgt. b) Wie groß ist die Wahrscheinlichkeit, mehr als 15 Minuten zu warten? c) Der Verkehrsstadtrat möchte eine Maximalwartezeit garantieren. Welche Zeit kann er veröffentlichen, wenn nur 10 % aller Fälle diese Wartezeit übertreffen werden, dh. daß er in mit 90 %-iger Sicherheit recht behält. d) Wie hoch ist der Erwartungswert der Verteilung? Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit W(X x) an, d.h. die Wahrscheinlichkeit, daß der Merkmalswert kleiner oder höchstens gleich x ist. Der Zusammenhang zwischen Dichtefunktion f(x) und Verteilungsfunktion F(x) ist: F(x) = Error! wobei f(x) in den nicht explizit angegebenen Bereichen den Wert f(x) = 0 annimmt. Außerdem gelten die Normierungsbedingungen: F(– ) = 0 F() = 1 F(x) = Error! = – Error!e–kx + C Im Beispiel ist die Funktion f(x) = 0 im Bereich (– / 0) F(0) = 0 = – Error!+ C C = Error! aus F() = 1 1 = C (wegen e–kx 0) W(X 5) = 0;6 = F(5) = – Es ergibt sich also: C=1 C = Error! 0;6 = – Error!e–k5 + C Error!e–k5 + C 1;5 0;6 = – e – 5k + 1 ln 0;4 = – 5k k = 0;183 = 5 C k = n 1 · 0,183 = n = 0,183 F(x) = 1 – e – 0,183 x Die Wahrscheinlichfunktion für die Wartezeit lautet: F(x) = 1 – e – 0,183x für x [0; ) und F(x) = 0 sonst. Die Dichte dieser Funktion ist: f(x) = 0,183 · e – 0,183x = Error! Mag. Wolfgang Streit Seite 14 von 20 5 CK Statistik 15. Mai 2016 b) Mehr als 15 Minuten warten: W(X > 15) = 1 – W(X 15) = 1 – F(15) = = 1 – 1 + e – 0,183 · 15 = 0,064 Mit 6 % Wahrscheinlichkeit wartet man länger als 15 Minuten auf die Straßenbahn. c) 90 % aller Fälle: F(x) = 0,9 = 1 – e – 0,183 · x x = 12,6 Stadtrat: „Sie warten bestimmt nicht länger als 13 Minuten auf die Straßenbahn!“ Diese Aussage hält mit einer Sicherheit von 90 %. d) Mittelwert: Der Mittelwert oder Erwartungswert einer stetigen Verteilung ist EW = Error! daher: Error! = k x Error! – Error! = – x e – kx – Error! Error! = 0 – ( – Error!) = Error!= 5;5 Im Durschschnitt wartet man 5,5 Minuten auf die Straßenbahn! Stetige Verteilungen Normalverteilung Musterbeispiel: a) Die Brenndauer von Glühlampen ist normalverteilt mit dem Mittelwert µ = 580 30 %. Die Fehlerangabe basiert auf einem 3 - Intervall. Es werden 8.000 Stück geliefert. Wieviele Glühlampen werden eine Brenndauer von - weniger als 600 h - mehr als 500 h - zwischen 400 und 700 h b) Bei der Befüllung von Behältern ist der Sollwert 2.400 g 10 %. Alle Füllungen außerhalb dieser Grenzen gelten als Ausschuß. Es werden 100.000 Stk. erzeugt und ein Stück Ausschuß erzeugt Kosten von EUR 1,50. Wie hoch sind die Ausschußkosten, wenn die Abfüllmaschine - mit 7 % um den Mittelwert 2.400 g streut - mit 7 % um den Mittelwert 3.000 g streut. a) Glühlampen Die Dichtefunktion der Normalverteilung (Gaußsche Glockenkurve) ist analytisch nicht integrierbar. Die Werte der Verteilungsfunktion stehen nur in Tabellenform (standardisierte NVT - also µ = 0 und = 1) oder als EXCEL - Funktion NORMVERT(x; µ; ; 1) zur Verfügung oder in Derive mit normal(x, µ, ) W(X x) = (x) = Mag. Wolfgang Streit 1 2 x e 1 t 2 2 dt Seite 15 von 20 5 CK Statistik 15. Mai 2016 oder mit der Standardisierung: z = Error! (bewirkt eine Verschiebung und eine Stauchung des Koordinatensystems, sodaß µ = 0 und = 1 wird) z2 (z) = 1 2 e 2 Im Beispiel ist µ = 580 und = 58 (10 % von 580) - weniger als 600: Tabelle: Standardisierung: z = Error! = 0,34 W(X 600) = W(Z 0,34) = (0,34) = (Tabelle) = 0,633 oder: = NORMVERT(600;580;58;1) - mehr als 500: Tabelle: Standardisierung: z = Error! = – 1,38 W(X 500) = W(Z – 1,38) = 1 – (– 1,38) = … negative z-Werte sind in der Tabelle nicht ersichtlich, wegen der Symmetrie der Verteilung bzgl. z = 0 gilt jedoch (– z) = 1 – (z) und daher: 1 – (1 – (1,38)) = (1,38) = 0,916 oder: = 1 – NORMVERT(500;580;58;1) - zwischen 400 und 700: Tabelle: Standardisierung: z2 = Error! = 2,07 z1 = Error! = – 3,10 W(400 X 700) = (2,07) – (– 3,10) = (Tabelle) = (2,07) – ( 1 – (3,10)) = (2,07) – 1 + (3,10) = 0,981 – 1 + 0,999 = 0,98 oder: = NORMVERT(700;580;58;1)–NORMVERT(400;580;58;1) Die Wahrscheinlichfunktion für die Brenndauer sind: weniger als 600 h 63,3 % mehr als 500 h 91,6 % zwischen 400 und 700 h 98,0 % b) Ausschußkosten: Der erlaubte Bereich ist 2.400 g 10 % = 2.400 240 = [2.160 / 2.640 ] Die Maschine füllt mit µ = 2.400 g, also genau im Sollwert, streut jedoch mit 7 %, dh. = 168 Der Anteil der Nichtausschußware ist daher: W(2.160 X 2.640) Standardisierung liefert z2 = Error! = 1,42 = Error! und z1 = – 1,42. Es liegt also ein symmetrisches Intervall um den Mittelwert vor: (z) – (–z) = (z) – (1 – (z)) = 2 (z) – 1 Mag. Wolfgang Streit Seite 16 von 20 5 CK Statistik 15. Mai 2016 W(2.160 X 2.640) = 2 (1,42) – 1 = 2 · 0,922 – 1 = = 0,844 Der Ausschußanteil beträgt daher 15,6 % und die Kosten 0,156 · 100.000 · 1,5 = 23.400,-Die Maschine erzeugt einen Ausschußanteil von 15,6 % und die Kosten dafür betragen EUR 23.400,--! Die Maschine füllt mit µ = 3.000 g, also weit über dem Sollwert und streut mit 7 %, dh. = 210 Der Anteil der Nichtausschußware ist : W(2.160 X 2.640) Standardisierung liefert z2 = Error! = – 1,71 und z1 = Error!= – 4,00 . W(2.160 X 2.640) = (–1,71) – (– 4,00) = 1 – (1,71) – (1 – (4,00)) = (4,00) – (1,71) = 1 – 0,956 = 0,044 Der Ausschußanteil beträgt daher 95,6 % und die Kosten 0,956 · 100.000 · 1,5 = 143.400,-Die Maschine erzeugt einen Ausschußanteil von 95,6 % und die Kosten dafür betragen EUR 143.400,--! Normalverteilung Näherung der Binomialverteilung - Konfidenzintervall - Prüfplankurven Musterbeispiel: a) Ein Betrieb weiß, daß ca. 15 % der Kunden, denen ein schriftliches Offert gemacht wird, auch bestellen. Es werden 500 Offerte gemacht. Wie groß ist die Wahrscheinlichkeit, daß mehr als 85 Bestellungen eintreffen? b) Welche Anzahl von Offerten muß diese Firma aussenden, wenn sie mit einer Wahrscheinlichkeit von 90 % mehr als 80 Bestellungen erhalten will? c) Die Firma macht eine Stichprobenerhebung mit dem Umfang 200 und erhält einen Wert von 170 sehr zufriedenen Kunden! Wie groß ist das Konfidenzintervall auf dem Signifikanzniveau 3 - . Wie hoch ist die Irrtumswahrscheinlichkeit? d) Die Firma vereinbart mit ihrem Konsumenten für die Annahme einer Lieferung eine Überprüfung durch eine Stichprobe vom Umfang 30 mit einer Annahmekennzahl 6. Zeichnen Sie eine Prüfplankurve für diese Situation. Wie hoch ist das Konsumentenrisiko bei einem wahren Ausschußanteil von 25 %? Wie hoch ist das Produzentenrisiko bei einem wahren Ausschußanteil von 15 %? a) Berechnung von Wahrscheinlichkeiten: Es liegt eigentlich eine binomial verteilte Zufallsgrße vor: Das Merkmal: Bestellung kommt mit einer Wahrscheinlichkeit 0,15 vor. Eigentlich ist also zu berechnen: W(k>85) = 1 – B(85) = 1 – (b(0) + … + b(85)). mit n = 500, p = 0,15 Ohne geeignete Software ist diese Berechnung mühsam bis unmöglich. (in EXCEL geht es über BINOMVERT(k; n; p; 1) sehr einfach.) Die Binomialverteilung strebt für n gegen die Normalverteilung, wobei folgende Beziehungen gelten: Mag. Wolfgang Streit Seite 17 von 20 5 CK Statistik 15. Mai 2016 n·pµ np(1 p) Aus der Formel der Binomialverteilung entsteht die stetige Formel der Dichtefunktion der Normalverteilung, wenn man die Maßstäbe so wählt, daß ein - Intervall immer gleich groß ist. In der Praxis erhält man gute Näherungen, wenn 2 = n p (1 – p) > 9 ist. Im Beispiel ist np = µ = 0,15 · 500 = 75 = 500 · 0.15 · 0 85 = 7,98 Man geht daher zur Normalverteilung über und berechnet die Wahrscheinlichkeit für das Intervall W(- 0,5 / 85,5). Standardisierung liefert: z1 = Error! = – 9, 46 und z2 = Error! = 1,32 Bei der Ersetzung einer diskreten Zufallsgröße durch eine stetige ist ein Intervall mit der Breite 1 so zu wählen, daß der zu nähernde k-Wert die Mitte des Intervalls ist. W(X > 85) = 1 – ( (1,32) – (–9,46)) = 1 – (1,32) = (weil (– 9,46) = 0 praktisch) = 1 – 0,907 = 0,093 Die Wahrscheinlichkeit, daß mehr als 85 Bestellungen eintreffen, beträgt 9,3 %. b) Berechnung von Stichprobengrößen: W(k > 80) = 0,9 Die Binomialverteilung wird durch die Normalverteilung ersetzt und man erhält: 0,9 = 1 – W(X 80,5) = 1 – (z) aus der Tabelle oder durch Anwendung der EXCELFunktion: NORMINV(Wahrscheinlichkeit;Mittelwert;Streuung) ergibt sich z = – 1,28 mit z = Error!= – 1,28 80,5 – 0,15 n = (– 1,28) ·Error! 6.480,25 – 24,15 n + 0,0225 n2 = 0,208896 n 0,0225 n2 – 24,358896 n + 6.480,25 = 0 liefert die Lösungen: n1 = 470,6 und n2 = 612 Bei der Auswahl der Lösung ist zu beachten, daß in der Originalgleichung ein negativer z-Wert erhalten werden muß, nur n2 erfüllt diese Bedingung. Die Firma muß mindestens 612 Offerte aussenden, wenn sie mit einer Sicherheit von 90 % mehr als 80 Bestellungen erhalten will! c) Konfidenzintervall: Definition: h sei die beobachtete relative Häufigkeit eines Ereignisses E im Rahmen einer Versuchsserie und eine (große) Mag. Wolfgang Streit Seite 18 von 20 5 CK Statistik 15. Mai 2016 Wahrscheinlichkeit. Die Menge aller p, deren - Schätzbereich S(p) den Wert h enthält, heißt Vertrauensintervall (Konfidenzintervall) für die Wahrscheinlichkeit von E mit der (statistischen) Sicherheit , kurz - Vertrauensintervall für p Das heißt, es handelt sich um die Umkehrung folgender Aufgabe: Die Wahrscheinlichkeit p eines Merkmalwertes in der Grundgesamtheit ist bekannt. In einer Stichprobe tritt dann dieses Merkmal mit der Wahrscheinlichkeit zwischen den Grenzen h1 und h2 auf. Das Intervall [h1; h2 ] heißt Schätzbereich. Wir suchen nun jene Werte von p, deren Schätzbereiche noch die bekannte Häufigkeit h enthalten. Dies führt auf den Ansatz: 2 (z) – 1 = Im Beispiel ist z = 3 (lt. Angabe) daher 99,7 %. Eigentlich ist dann folgende Gleichung zu lösen: 3 = Error!= Error!= Error! 9 (200 p (1 – p)) = (170 – 200 p)2 1.800 p – 1.800 p2 = 28.900 – 68.000 p + 40.000 p2 41.800 p2 – 69.800 p + 28.900 = 0 liefert die Lösungen: p1 = 0,76 und p2 = 0,91 dh. der wahre Anteil liegt mit einer Irrtumswahrscheinlichkeit von 0,3 % im Intervall [76 % / 91 % ]. Schneller kommt man bei halbwegs großem n mit folgender Näherung zum Ziel: 1p2 = h z · Error!, wobei h der Anteil der Merkmalträger in der Stichprobe ist. Also: h = Error!= 0,85 und 1p2 = 0,85 3 · Error! = 0,85 3 · 0,025 = Error! Die Firma kann auf dem Signifikanzniveau von 99,7 %, (mit einer Irrtumswahrscheinlichkeit von 0,3 %) mit einem Anteil von mindestens 77 % und höchstens 93 % zufriedener Kunden rechnen. Aus dem Signifikanzniveau ist der z Wert durch den Ansatz 2 (z) – 1 = berechenbar. In der Praxis üblich sind folgende z - Werte incl. der Sprachregelung: z=1 = 68 % z=2 = 95 % signifikant z=3 = 99,7 % hoch signifikant 3 - Unschärfen sind bei wissenschaftlichen Untersuchungen üblich. Bemerkung: d) Prüfplankurven: Definition: Aus einer Grundgesamt mit dem Merkmalsanteil p wird eine Stichprobe vom Umfang n gezogen. Die Stichprobe wird als angenommen bezeichnet, wenn die Anzahl der Merkmalträger in der Stichprobe kleiner als eine Mag. Wolfgang Streit Seite 19 von 20 5 CK Statistik 15. Mai 2016 Annahmekennzahl c ist. Die Funktion: Annahmewahrscheinlichkeit(p) = W(X c) (p) heißt Prüfplankurve (oder Operationscharakteristik). Das Produzentenrisiko ( - Fehler, Fehler erster Art) ist die Wahrscheinlichkeit, daß die Stichprobe (Lieferung) abgelehnt wird, obwohl p den Bedingungen entspricht. Das Konsumentenrisiko ( - Fehler, Fehler 2. Art) ist die Wahrscheinlichkeit, daß die Stichprobe angenommen wird, obwohl p den Bedingungen nicht entspricht. Die Formel für die Prüfplankurve ist: Annahmewahrscheinlichkeit = W(X<c) = Error! Im Beispiel ist c=6 n = 30 daher W (X < 6) = Error! Werte erhält man entweder durch einen programmierbaren Taschenrechner oder durch EXCEL: = NORMVERT(0;1;(6-30*A2)/(30*A2*(1-A2))^0,5;1) Vernünftig sind p - Werte um den Wert Error!. Für diesen Wert hat die Operationscharakteristik immer den Wert 0,5. Das Konsumentenrisiko beträgt für p = 0,25: W (X < 6) = Error! = (– 0,63 ) = 0,264 Das Produzentenrisiko beträgt für p = 0,15: W (X < 6) = 1 – Error! = 1 – (0,766 ) = 1 – 0,78 = 0,22 Das Konsumentenrisiko beträgt bei einem wahren Ausschußanteil von 25 % 26,4 %, d.h. der Konsument wird mit einer Häufigkeit von 26,4 % Lieferungen akzeptieren, weil in der Stichprobe weniger als 6 von 30 (= 20 %) Ausschußstücke vorhanden sind, obwohl die Ausschußhäufigkeit in der Grundgesamtheit 25 % beträgt. Das Produzentenrisiko beträgt bei einem wahren Ausschußanteil von 15 % 22 %, d.h. der Produzent wird Lieferungen zurückbekommen, weil 22 % der Lieferungen mehr als 6 von 30 Ausschußstücke enthalten, obwohl der wahre Ausschußanteil nur 15 % beträgt (also besser als gefordert ist) Mag. Wolfgang Streit Seite 20 von 20