Stochastik

Werbung
5 CK
Statistik
15. Mai 2016
Deskriptive Statistik
Zentral- und Streuungsmaße
Musterbeispiel:
a) Die Einkommensverteilung in einer Grundgesamtheit sieht wie folgt aus:
Einkommen
0 - 200
200 - 400
400 - 600
600 - 800
5.000 in Tausend GE
abs. Häufigk. 800
2.500
1.200
499
1
Ermitteln Sie die relativen Häufigkeiten.
Wie groß ist der arithmetische Mittelwert, der Modus, der Median, die Streuung, die Spannweite, die
Interquartilspannweite und der Variationskoeffizient?
Zeichnen Sie die Volkseinkommenskurve (Lorenzkurve). Welcher Prozentsatz der Bevölkerung verdient
50 % des Volkseinkommens?
b) Die Inflationsrate eines Staates weist 3 Jahre lang einen Wert von 12 %, 1 Jahr lang –10 % und 5 Jahre
lang 3 %. Wie groß ist die mittlere Inflationsrate?
Wie hoch ist der VPI am Ende des letzten Jahres, wenn er am Anfang den Wert 123 hatte.
Wie hoch ist die durchschnittliche Inflationsrate, wenn der VPI 1985 den Wert 132 und 1996 den Wert
172 hatte?
c) Ein PKW fährt 60 % einer Strecke mit 80 km/h, 10 % mit 20 km/h und den Rest mit 120 km/h. Wie hoch
ist die mittlere Geschwindigkeit? Wann muß man harmonisch mitteln?
a) Einkommensverteilung:
Als Repräsentant der Klassen wird das arithmetische Mittel
der Klassengrenzen genommen:
Klasse
100.000
300.000
500.000
700.000
5.000.000
Summe
Hi
800
2.500
1.200
499
1
5.000
hi
16,00
n
x H
i
x
i
i 1
n
H
=
i
i 1
= Error!
= 356.860
Modus (häufigster Wert) = 300.000
Median (Zentralwert):
Der Median ist das arithmetische Mittel aus x2500 und x2501.
Da beide Werte 300.000 sind, ist der Median 300.000,--.
Die Streuung bzw. Standardabweichung ist die Wurzel aus
dem arithmetischen Mittel der Quadrate der Abweichungen
zum Mittelwert:
  x  x 
n
2
i
s
i 1
Hi

n
H
i
i 1
Die Berechnung ohne Hilfsmittel ist mühsam und sollte
über ein Spread-sheet-Programm bzw. mit Hilfe eines
statistiktauglichen TRs erledigt werden:
s = 182.097 GE
Mag. Wolfgang Streit
Seite 1 von 20
5 CK
Statistik
15. Mai 2016
Die Spannweite ist die Differenz zwischen größtem und
kleinstem Merkmalswert, also 4.900.000,--.
Die Interquartilspannweite ist die Differenz zwischen
Median der oberen Hälfte und des Medians der unteren
Hälfte:
Median der oberen Hälfte:
Median der unteren Hälfte:
Interquartilspannweite:
200.000,-Der Variationskoeffizient ist der Quotient VC = Error!
also: VC = 51 %. Dies ist ein sehr hoher Wert!
Die Lorenzkurve ist der Graph der Funktion der relativen
kumulierten Häufigkeiten der Einkommen abhängig vom
relativen Anteil der Einkommensbezieher.
Es ist folgende Tabelle zu erstellen:
Eink.
100.000
300.000
500.000
700.000
5.000.000
abs.H. kum.H.
0,00
800
0,16
2.500
0,66
1.200
0,90
499
1,00
1
1,00
kum. VE
80.000.000
830.000.000
1.430.000.000
1.779.300.000
1.784.300.000
rel. kum VE
0,00
0,04
0,47
0,80
1,00
1,00
Es ergibt sich folgende Darstellung:
Lorenzkurve
rel. kum. Häufigk. d. Eink.
1,00
0,80
0,60
0,40
0,20
0,00
0,00
0,20
0,40
0,60
0,80
1,00
kum . Ant. der Einkom m ensbezieher
Das Volkseinkommen beträgt 1.784.300.000,-- GE.
50 % davon sind 892.150.000,-- GE.
Die ersten 800 + 2.500 = 3.300 Leute verdienen
zusammen 830.000,-- GE (Tabelle).
Es ist also zu rechnen:
Anzahl der Leute, die 50 % des VE verdienen=
800 + 2.500 + Error!  3.424
(das sind 68,5 % der Bevölkerung).
Die Einkommensverteilung dieser Population weist
folgende Eigenschaften auf:
Die meisten Leute verdienen 300.000,-- GE / Jahr.
(Modus).
Die Hälfte der Leute verdient unter 300.000,-- Jahr.
(Median).
Das Durchschnittseinkommen beträgt 356.860,-- und
streut mit 182.079,-- um diesen Mittelwert. Die
Mag. Wolfgang Streit
Seite 2 von 20
5 CK
Statistik
15. Mai 2016
Streuung ist sehr groß, der Variationskoeffizient ist 51
%.
Eine Person (stellt 0,2 ‰ der Bevölkerung dar) allein
verdient 2,8 ‰ des Volkseinkommens.
b) Geometrisches Mittel:
Es ist das geometrische Mittel der Wachstumsfaktoren (= 1
+ Wachstumsrate) zu bilden:
n
~
x
 Hi
i 1
n
x
Hi
i
= Error! = 1,043
i 1
Die mittlere Inflationsrate beträgt daher 4,3 %.
VPI(letztes Jahr) = 123 · 1,0439 = 179,7
Durchschnittliche Inflationsrate = Error! = 1,024.
Die durchschnittliche Inflationsrate beträgt 4,3 %. Der
VPI am Ende des letzten Jahres beträgt 179,7.
Die durchschnittliche Inflationsrate beträgt 2,4 %.
c) Harmonisches Mittel
Der zugrundeliegende Zusammenhang zwischen
Geschwindigkeit (Merkmalswert) und Häufigkeit (Strecke)
ist:
Geschwindigkeit = Error! oder Zeit = Error!.
Man muß also zuerst die Gesamtzeit ermitteln, indem man
die erwähnten Bruchterme addiert. Die mittlere
Geschwindigkeit ist dann Error!. Dies ist der
grundlegende Vorgang des harmonischen Mittels
(Verallgemeinerung dieses Algorithmus).
Geschwindigkeiten müssen harmonisch gemittelt werden.
n
xˆ 
H
i 1
n
i
Hi

i 1 xi
 weil
n
h
i 1
i
1 
1
=
hi

i 1 xi
n
d.h. das harmonische Mittel ist der Kehrwert des
arithmetischen Mittels der Kehrwerte der Merkmalswerte.
Berechnung in Stufen:
arithmetisches Mittel der Reziprokwerte =
0
0
0
6;80 + 1;20 + 3;120 = 0,015
1;0
harmonisches Mittel = 015 = 66,7 km/h.
Die mittlere Geschwindigkeit ist 66,7 km/h.
Harmonische Mittel müssen dann verwendet werden,
wenn der Merkmalswert als Funktion zweier Parameter
errechnet wird und der Zusammenhang zwischen
Häufigkeit und Merkmalswert so aussieht:
Parameter = Error!.
Mag. Wolfgang Streit
Seite 3 von 20
5 CK
Statistik
15. Mai 2016
Kombinatorik
Musterbeispiel:
a) Wieviele Worte kann man mit den Buchstaben des Wortes „WIEN“ bilden, wenn jeder Buchstabe nur
einmal vorkommen darf und auch vorkommen muß? Was ist eine Permutation? Was bedeutet n!.
b) Wieviele Worte kann man mit den Buchstaben des Wortes „LEERE“ bilden, wenn jeder Buchstabe nur so
oft wie im Originalwort vorkommen darf?
c) Wieviele verschiedene Anordnungen von 4 verschiedenen Zeichen aus einer Menge von 6 Zeichen gibt
es? Was ist eine Variation? Wie kürzt man Error!.
d) Wieviele verschiedene Anordnungen von 4 Zeichen aus einer Menge von 6 Zeichen gibt es. Was ist eine
Variation mit Wiederholung?
e) Wie oft kann man 4 verschiedene Zeichen aus einer Menge von 6 Zeichen auswählen. Was ist eine
Kombination?
f) Was ist ein Binomialkoeffizient und welche Eigenschaften hat er? Berechnen Sie (300;3)
g) Wieviele Lottoscheine muß man ausfüllen, damit man mit Sicherheit einen 6-er hat. Wieviele 5-er mit
Zusatzzahl tippt man damit? Wieviele Totoscheine muß man ausfüllen, um mindestens einen „12-er“ zu
tippen.
a) Permutation:
Die Kombinatorik beschäftigt sich mit Anordnungen in
endlichen Mengen und dem Abzählen der verschiedenen
Anordnungsmöglichkeiten unter geeigneter Bedingungen.
Überlegung: Für die Besetzung des ersten Buchstabens
gibt es 4 Möglichkeiten (W I E N ). Für jede
Besetzung des ersten Buchstabens gibt es 3
Besetzungen des 2. Buchstabens, weil noch
drei Buchstaben überbleiben, usw.
Es gibt also 4 · 3 · 2 · 1 = 24 Möglichkeiten.
Definition:
Eine n-stellige Permutation ist eine bijektive (d.h.
eineindeutige Abbildung) einer Menge mit n Elementen
(der Mächtigkeit n) auf sich selbst.
Eine Permutation stellt also eine Anordnung von n
Elementen auf n Plätze (zu einem n-Tupel) dar. Die
Reihenfolge ist von Bedeutung. Kein Element darf mehr
als einmal vorkommen.
Definition:
n
Das Produkt 1 · 2 · … · n =
 i = n!
i 1
heißt n Fakultät bzw. n Faktorielle.
Zusatzdefinition: 0! = 1
Die Anzahl der n-stelligen Permutationen ist Pn = n!
Mit den Buchstaben des Worte WIEN kann man 24
Worte mit 4 Buchstaben bilden, wenn jeder Buchstabe
genau einmal vorkommen darf.
b) Permutation mit Wiederholung:
Überlegung: Im Wort LEERE kommen die Buchstaben mit
folgenden Häufigkeiten vor:
L
E
R
1
3
1
Es handelt sich um eine Permutation mit
Mag. Wolfgang Streit
Seite 4 von 20
5 CK
Statistik
15. Mai 2016
Wiederholung. (Anordnung von 5 Elementen
auf 5 Plätze, wobei manche öfter vorkommen.
Wären die E’s unterscheidbar, gäbe es 5! =
120 Anordnungen. Alle jene, die sich nur
durch eine Permutation der drei E’s
unterscheiden, sind jedoch nur einmal zu
zählen. Daher:
Anzahl = Error!= Error!= 20
Definition:
Sind unter den Elementen eines n-Tupels k
voneinander verschieden und treten diese mit den
Häufigkeiten pi (i= 1 … k) auf (wobei pi = n ist), dann
heißt dieses n-Tupel n-stellige Permutation mit pi
Wiederholungen.
Die Anzahl der n-stelligen Permutationen mit pi
p
n!
Wiederholungen ist ni  k
P
p !
i
i 1
Mit den Buchstaben des Worte LEERE kann man 20
Worte mit 4 Buchstaben bilden, wenn jeder Buchstabe
genau so oft wie im Original vorkommen darf.
c) Variation:
Die Zeichen - 6 - Tupel sei {A, B, C, D, E, F}. Die
Anordnung kann man so kodieren (Beispiel):
Stelle:
1
2
3
4
Belegung A
C
D
F
and. Bel.: C
A
E
B
usw.
Man kann aber auch so kodieren:
Belegung A
B
C
D
E
F
belegte St. 1
0
2
3
0
4
and. Bel.:
dann ist es ein bekannter Fall, nämlich eine Permutation
mit Wiederholung mit 6 Elementen, wobei jeweils 2 gleich
sind (die Belegung 0, die angibt, daß ein Buchstabe in der
Originalanordnung nicht vorkommt).
Es gibt daher Error! = Error!= 360 Anordnungen.
Aus einer Menge von 6 Zeichen kann man 360
Anordnungen von jeweils 4 dieser Zeichen bilden,
wobei keines dieser Zeichen wiederholt werden darf.
Definition:
Wählt man aus n verschiedenen Elementen ein k-Tupel
so heißt diese Anordnung Variation k-ter Ordnung mit
n Elementen ohne Wiederholung.
Eine Variation stellt also eine Anordnung von n Elementen
auf k Plätze dar. Die Reihenfolge ist von Bedeutung. Kein
Element darf mehr als einmal vorkommen.
Mag. Wolfgang Streit
Seite 5 von 20
5 CK
Statistik
15. Mai 2016
Die Anzahl der Variationen k-ter Ordnung mit n
Elementen ist Vn;k = Error!
Error! = Error!=
= n (n – 1) (n – 2)
Error! = n (n – 1) (n – 2)
d) Variation mit Wiederholung:
Für jede der 4 Stellen gibt es 6 Belegungen, daher:
64 = 1.296 Möglichkeiten
Aus einer Menge von 6 Zeichen kann man 1.296
Anordnungen von jeweils 4 dieser Zeichen bilden,
wobei alle dieser Zeichen wiederholt werden dürfen.
Definition:
Ein k-Tupel aus Elementen einer n-elementigen Menge
heißt Variation k-ter Ordnung mit n Elementen mit
Wiederholung.
Die Anzahl der Variationen k-ter Ordnung mit n
Elementen mit Wiederholung ist V(w)n;k = nk.
e) Kombination:
Bei der Auswahl ist die Reihenfolge der ausgewählten
Elemente nicht von Bedeutung. Daher sind z. Bsp. die 4Tupel:
A
C
D
F
A
C
F
D
A
D
C
F
usw.
im oberen Sinne gleichwertig.
Mit Berücksichtigung der Reihenfolge entspricht die
Aufgabenstellung einer Variation ohne Wiederholung. Ihre
Anzahl ist durch 4! zu dividieren, weil jeweils 4-Tupel, die
durch Permutation entstehen, nur einer zählbaren
Kombination entsprechen.
Es gilt also:
K46 
6!
= Error! = 15
4! 2!
Aus einer Menge von 6 Zeichen kann man 15 mal
jeweils 4 verschiedene Zeichen auswählen.
Definition:
Ein k-elementige Teilmenge einer n-elementigen
Menge heißt Kombination k-ter Ordnung mit n
Elementen ohne Wiederholung.
Mag. Wolfgang Streit
Seite 6 von 20
5 CK
Statistik
15. Mai 2016
Die Anzahl der Variationen k-ter Ordnung mit n
Elementen mit Wiederholung ist
 n
n!
c(n; k) 
  .
k! n  k!  k
f) Binomialkoeffizient:
Der Term (n;k) = Error!heißt Binomialkoeffizient.
Eigenschaften:
(n;k) = (n;n – k)
Symmetrie:
(n;0) = (n;n)
Spezielle Werte:
(n;1) = (n;n – 1)
Spezielle Werte:
Pascalsches Dreieck: Der Binomialkoeffizient (n;k) steht
im Pascalschen Dreieck in der n.-ten Zeile an k.-ter Stelle.
300 = Error!= Error! = 4.455.100
 3 
g) Lotto und Toto
Beim Lotto werden aus 45 Zahlen 6 ausgewählt, wobei die
Reihenfolge nicht von Bedeutung ist:
Es handelt sich also um eine Kombination:
c(45;6) = (45;6) = 8.145.060.
Für die „5-er mit Zusatzzahl“ folgende Überlegung:
Um 5 richtige zu tippen, muß man 5 von 6 richtigen Zahlen
erraten und für jede dieser Kombinationen auch eine aus
den verbleibenden 39 falschen, also
(6;5) (39;1) = 6 · 39 = 234
Zusätzlich ist noch die Zusatzzahl richtig zu tippen. Dafür
gibt es noch 39 Möglichkeiten, nur eine davon ist richtig,
also: Anzahl der „5-er mit ZZ“ = Error!= 6.
Totoschein: 12 Tips mit den Varianten 1, 2, X (gewonnen,
verloren, unentschieden)
An jeder der 12 Stellen kann jedes Zeichen stehen, auch
Wiederholungen sind möglich, die Reihefolge ist von
Bedeutung  Variation mit Wiederholung.
312 = 531.441
Wieviele 11-er: 1 Tip darf falsch sein, er kann an jeder
Stelle stehen  12 „11-er“.
Wieviele 10-er: 2 Tips dürfen falsch sein, 10 richtig, also 2
f und 10 r in 12 Stellen anordnen: Permutation mit
Wiederholung: Error!= 66.
Mag. Wolfgang Streit
Seite 7 von 20
5 CK
Statistik
15. Mai 2016
Will man beim Lotto „6 aus 45“ unbedingt gewinnen,
dann muß man 8.145.060 verschiedene Tips abgeben.
Man tippt damit 1 „6-er“, 6 „5-er mit Zusatzzahl“, 234
„5-er“, 11.115 „4-er“ und 182.780 „3-er“.
Will man beim Fußballtoto (12 Ergebnisse sind zu
erraten - 3 Ausgänge sind möglich) unbedingt
gewinnen, muß man 531.441 Tips abgeben. Man tippt
damit 1 „12-er“, 12 „11-er“ und 66 „10-er“.
Musterbeispiel:
Elementare Wahrscheinlichkeitsrechnung
In einer Klasse von 30 Schülern sind 10 Burschen. 25 % der Mädchen und 30 % der Burschen sind
Brillenträger. Erstellen Sie ein Baumdiagramm und das Mengendiagramm für diese Situation und ermitteln
Sie:
a) den Anteil der Gruppe „Mädchen oder Brillenträger“.
b) den Anteil der Gruppe „Mädchen und Brillenträger“
c) den Anteil (die Wahrscheinlichkeit) der Brillenträger unter den Mädchen
d) die Wahrscheinlichkeit, daß man bei zufälliger Auswahl ein Mädchen unter den Brillenträgern auswählt
e) den Anteil der Brillenträger.
a) Additionssatz:
Baumdiagramm:
Start
B
w
m
NB
B
NB
Mengendiagramm:
W(W  B) = W(W) + W(B) – W(WB) = Error! = Error!
oder aus dem Baumdiagramm:
Regel: Die Astbeschriftungen sind die bedingten
Wahrscheinlichkeiten. Die Endwahrscheinlichkeit ergibt
sich aus der Summe der Produkte der durchlaufenen
bedingten Wahrscheinlichkeiten.
W(W  B) = Error! = 0,766… = Error!
Mag. Wolfgang Streit
Seite 8 von 20
5 CK
Statistik
15. Mai 2016
Additionssatz („oder“):
W(A  B) = W(A) + W(B) – W(A  B)
Bedingte Wahrscheinlichkeit:
W(A B) ist die Wahrscheinlichkeit, daß A eintritt,
wenn B schon feststeht.
Multiplikationssatz („und“):
W(A  B) = W(A) · W(B A)
Die Wahrscheinlichkeit aus dieser Klasse ein Mädchen
oder eine(n) Brillenträger(in) auszuwählen ist 76,7 %!
b) Multiplikationssatz:
W(W  B) = Error! = 0,166… = Error!
Die Wahrscheinlichkeit aus dieser Klasse ein Mädchen
mit Brillen auszuwählen ist 16,7 %!
c) Bedingte Wahrscheinlichkeit:
W(B W ) = 0,25 (lt. Angabe - dieser Wert wird in das
Baumdiagramm eingezeichnet)
Die Wahrscheinlichkeit aus den Mädchen dieser
Klasse eine Brillenträgerin auszuwählen, ist 25 %.
d) Satz von Bayes:
W(W B ) = Error!= Error!= Error!= 0,625
Die Wahrscheinlichkeit aus den Brillenträgern dieser
Klasse ein Mädchen auszuwählen ist 62,5 %.
e) Totale Wahrscheinlichkeit:
W(B) = Error! = Error!= 26,7 %
Die Wahrscheinlichkeit aus dieser Klasse eine(n)
Brillenträger(in) auszuwählen ist 26,7 %.
Mag. Wolfgang Streit
Seite 9 von 20
5 CK
Musterbeispiel:
Statistik
15. Mai 2016
Verteilungen
Hypergeometrische Verteilung
Aus einem Kartenspiel mit 20 Karten, 4 davon sind Asse, werden jeweils 5 Karten ohne Zurücklegen
gezogen. Wie sieht die Wahrscheinlichkeitsverteilung aus, wie hoch ist der Erwartungswert und wie sind die
Quoten für ein Gewinnspiel bei „fairem Spiel“ anzusetzen? Wie hoch ist die Gewinnerwartung, wenn für die
Ziehung von mindestens 2 Assen für eine Einsatz von EUR 100,-- 300,-- ausbezahlt werden? Wer gewinnt
wieviel nach 1.000 solcher Spiele?
In einer endlichen (und kleinen) Grundgesamtheit vom
Umfang N gibt es M Merkmalträger. Es wird eine
Stichprobe vom Umfang n gezogen werden. Wie groß ist
die Wahrscheinlichkeit, daß in der Stichprobe k
Merkmalträger auftreten?
Die Anzahl der möglichen Stichproben ist (N;n) .
Die Anzahl der günstigen Fälle ist:
Wieviele Möglichkeiten gibt es, aus M Merkmalträgern k
auszuwählen: (M;k) . Für jede dieser Möglichkeiten gibt es
N M 

 Möglichkeiten, aus N – M Nichtmerkmalträgern
 nk 
n – k Nichtmerkmalträger auszuwählen. Daher:
W(k) = h(k) = Error!
Derive:
Datei – Laden – Zusatzdatei – Probabil.mth
hypergeometric_density (k,n,M,N) bzw.
hypergeometric_distribution(k,n,M,N)
Dies ist die Formel für die hypergeometrische Verteilung.
In unserem Fall ist:
h(0) = Error! =
0,282
h(1) = Error! =
0,470
h(2) = Error! =
0,217
h(3) = Error! =
0;031
h(4) = Error! =
0;001
Die Wahrscheinlichkeitsverteilung sieht so aus:
0 Asse
28,2 %
1 As
47,0 %
2 Asse
21,7 %
3 Asse
3,1 %
4 Asse
0,1 %
Der Erwartungswert ist
0·0,282 + 1·0,470 + 2·0,217 + 3·0,031 + 4·0,001 = 1
Unter der Gewinnerwartung versteht man:
Gewinnerwartung =
= Error!
= Gewinnquote * Gewinnwahrscheinlichkeit.
Bei einem fairen Spiel ist die Gewinnerwartung 1.
Faire Quoten wären daher:
0 Asse
1
2
3
4
As
Asse
Asse
Asse
Mag. Wolfgang Streit
3,549 =
1;0
282
2,130
4,614
32,300
969,000
Seite 10 von 20
5 CK
Statistik
15. Mai 2016
Die Wahrscheinlichkeit, mindestens 2 Asse zu ziehen ist
h(2) + h(3) + h(4) = 0,249.
Gewinnerwartung = 3 · 0,249 = 0,746 bei einem Spiel.
Bei 1.000 Spielen zu EUR 100,-- Einsatz ist der zu
erwartende „Auszahlungsbetrag“ EUR 74.617,-- bei einem
Einsatz von EUR 100.000,--
Die Gewinnerwartung für ein Spiel: „Mindestens 2
Asse“ mit der Quote 3 ergibt für 1.000 Spiele die
Gewinnerwartung – 25.383,--. Der Bankhalter gewinnt
also EUR 25.383,--
Musterbeispiel:
Verteilungen
Binomialverteilung
Bei einem Roulettespiel (Zahlen von 0 bis 36) setzt Otto Gambler immer auf 6 Zahlen (z.Bsp. 4 bis 9). Wie
groß ist die Wahrscheinlichkeit, daß er bei 10 Spielen nie bzw. mindestens 3 mal gewinnt?
Wie oft muß er spielen, damit er mit einer Wahrscheinlichkeit von 99 % mindestens 2 mal gewinnt?
In einer unendlich großen (die Einzelwahrscheinlichkeit
eines Ereignisses ändert sich nach jedem Versuch nicht)
Grundgesamtheit gibt es einen Merkmalträgeranteil von p.
Es wird eine Stichprobe vom Umfang n gezogen werden.
Wie groß ist die Wahrscheinlichkeit, daß in der Stichprobe
k Merkmalträger auftreten?
Eine Möglichkeit ist das k-malige Auftreten des Merkmals
und dann das (n-k)-malige Auftreten des Nichtmerkmals.
Die Wahrscheinlichkeit dafür (in dieser Reihefolge) ist
pk · (1 – p)n – k .
Allerdings ist auch jede Permutation dieser Reihefolge ein
günstiges Ereignis, also ist die Einzelwahrscheinlichkeit
noch mit Error! = Error!.
Daher:
b(k) = (n;k) pk · (1 – p)n – k
Bei uns hat das Merkmal „gewonnenes Spiel“ die
Wahrscheinlichkeit p = Error!
b(0) = (10;0) Error!Error!= 0,17= Error!
Mindestens 3 mal gewinnen heißt:
b(3) + b(5) + b(6) + … + b(10) =
= 1 – b(0) – b(1) – b(2) =
=1 – (10;0) Error!Error!– Error!Error!Error!–
– (10;2) Error!Error!=
= 1 – 0,17 – 0,33 – 0,287 = 0,212
EXCEL:
BINOMVERT(k;n;p;Kumuliert)
Wenn Kumuliert = 0 dann liefert die Funktion den
Einzelwert b(k), wenn Kumuliert = 1 dann liefert die
Funktion gleich den Wert der Verteilungsfunktion
B(k) = b(0) + … + b(k).
Also: W(3, …, 10) = 1 – B(2)
=1 – BINOMVERT(2;10;6/37;1).
Mag. Wolfgang Streit
Seite 11 von 20
5 CK
Statistik
15. Mai 2016
Derive:
Datei – Laden – Zusatzdatei – Probabil.mth
binomial_density (k,n,p) bzw.
binomial_distribution(k,n,p)
Die Wahrscheinlichkeit, daß Otto Gambler nie gewinnt
ist 17 % (d.h. bei ca. jeder 6 Serie von 10 Spielen kann
das vorkommen).
Die Wahrscheinlichkeit, daß er mindestens 3 - mal
gewinnt ist 21,2 %.
Ansatz:
0,99 = W(2;3;…n) = 1 – b(0) – b(1) = 1 – B(1)
0,01 = b(0) + b(1)
0,01 = (n;0) Error!Error!+ Error!Error!Error!
0;01 = Error!+ n Error!Error!
Dies ist eine transzendente Gleichung (Gemisch aus
Polynom und Exponentialgleichung) und nur
näherungsweise zu lösen (SOLVER bzw.
ZIELWERTSUCHE in EXCEL)
n = 38,63
Otto Gambler muß mindestens 39 Spiele spielen, damit
er mit 99 %-iger Sicherheit mindestens 2 mal gewinnt!
Musterbeispiel:
Verteilungen
Poissonverteilung
a) Die Anzahl der Fehler in einer Schularbeit ist poissonverteilt mit dem Mittelwert 7. Der Notenschlüssel ist:
Sehr gut bei weniger als 3 Fehler, Nicht genügend bei mehr als 12 Fehler. Befriedigend zwischen 7 und 9
Fehler (incl.). Wie hoch sind die Wahrscheinlichkeiten für Sehr gut, Befriedigend und Nicht genügend?
b) Der Lehrer will nicht mehr als 5 % negative Beurteilungen geben. Auf welchen Wert muß er den
Mittelwert der Fehler bringen, um das zu erreichen?
a) Ermittlung von Wahrscheinlichkeiten:
Die Poissonverteilung entsteht aus der Binomialverteilung
durch folgende Grenzwertbildung:
n p0
np  µ:
p(k) = Error!
Für die Berechnung von p(k) gibt es vier Möglichkeiten:
1. in die Formel einsetzen
2. durch die EXCEL-Funktion POISSON(k;µ;kumuliert)
3. aus der Tabelle der Verteilungsfunktion P(k).
4. in Derive poisson_distribution(k,µ)
Sehr gut - weniger als 3 Fehler:
W(0;1;2) = p(0) + p(1) + p(2) = Error!+ … =
0,001 + 0,006 + 0,022 = 0,030  Error!
oder: W(0;1;2) = POISSON(2;7;1) = 0,030 (EXCEL)
oder: W(0;1;2) = P(2) aus der Tabelle.
Mag. Wolfgang Streit
Seite 12 von 20
5 CK
Statistik
15. Mai 2016
Befriedigend - 7 bis 9 Fehler:
W(7;8;9) = p(7) + p(8) + p(9) = P(9) – P(6) =
1;2
0,830 – 0,450 = 0,380 = 63
Nicht genügend - mehr als 12 Fehler:
1;37
W(13; 14; …) = 1 – P(12) = 1 – 0,973 = 0,027 = 03
Die Wahrscheinlichkeiten für die Beurteilungsstufen
sind:
Sehr gut
3,0 %
Befriedigend
38,0 %
Nicht genügend
2,7 %
d.h. jede 34. Schularbeit ist ein Sehr gut, jede 2,6.
Schularbeit ist ein Befriedigend, jede 37. Schularbeit
ist ein Nicht genügend.
b) Ermittlung von µ:
Ansatz:
W(13; 14; …) = 1 – P(12) < 0,05
0,95 < P(12)
Nachsehen in der Tabelle bzw. in EXCEL liefert:
µ = 7,69
Der Fehlerdurchschnitt in der Klasse muß bei 7,7
liegen, damit nicht mehr als 5 % Nicht genügend
auftreten.
Mag. Wolfgang Streit
Seite 13 von 20
5 CK
Musterbeispiel:
Statistik
15. Mai 2016
Stetige Verteilungen
Allgemein stetige Verteilung
a) Die Dichtefunktion der Wartezeit auf eine Straßenbahn sei von folgender Form: f(x) = n · e- kx im Bereich
[0 /  ). x ist die Wartezeit in Minuten. k ist so zu ermitteln, daß die Wahrscheinlichkeit, weniger als 5
Minuten zu warten 60 % beträgt.
b) Wie groß ist die Wahrscheinlichkeit, mehr als 15 Minuten zu warten?
c) Der Verkehrsstadtrat möchte eine Maximalwartezeit garantieren. Welche Zeit kann er veröffentlichen,
wenn nur 10 % aller Fälle diese Wartezeit übertreffen werden, dh. daß er in mit 90 %-iger Sicherheit recht
behält.
d) Wie hoch ist der Erwartungswert der Verteilung?
Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit
W(X  x) an, d.h. die Wahrscheinlichkeit, daß der
Merkmalswert kleiner oder höchstens gleich x ist.
Der Zusammenhang zwischen Dichtefunktion f(x) und
Verteilungsfunktion F(x) ist:
F(x) = Error!
wobei f(x) in den nicht explizit angegebenen Bereichen den
Wert f(x) = 0 annimmt.
Außerdem gelten die Normierungsbedingungen:
F(– ) = 0
F() = 1
F(x) = Error! = – Error!e–kx + C
Im Beispiel ist die Funktion f(x) = 0 im Bereich (–  / 0) 
F(0) = 0 = – Error!+ C  C = Error!
aus F() = 1  1 = C (wegen e–kx  0)
W(X  5) = 0;6 = F(5) = –
Es ergibt sich also:
C=1
C = Error!
0;6 = – Error!e–k5 + C
Error!e–k5 + C
1;5
0;6 = – e – 5k + 1  ln 0;4 = – 5k  k = 0;183 = 5
C k = n  1 · 0,183 = n = 0,183
F(x) = 1 – e – 0,183 x
Die Wahrscheinlichfunktion für die Wartezeit lautet:
F(x) = 1 – e – 0,183x für x [0; ) und F(x) = 0 sonst.
Die Dichte dieser Funktion ist:
f(x) = 0,183 · e – 0,183x = Error!
Mag. Wolfgang Streit
Seite 14 von 20
5 CK
Statistik
15. Mai 2016
b) Mehr als 15 Minuten warten:
W(X > 15) = 1 – W(X  15) = 1 – F(15) =
= 1 – 1 + e – 0,183 · 15 = 0,064
Mit 6 % Wahrscheinlichkeit wartet man länger als 15
Minuten auf die Straßenbahn.
c) 90 % aller Fälle:
F(x) = 0,9 = 1 – e – 0,183 · x  x = 12,6
Stadtrat: „Sie warten bestimmt nicht länger als 13
Minuten auf die Straßenbahn!“
Diese Aussage hält mit einer Sicherheit von 90 %.
d) Mittelwert:
Der Mittelwert oder Erwartungswert einer stetigen
Verteilung ist EW = Error!
daher:
Error! = k x Error! – Error! =
– x e – kx – Error! Error! = 0 – ( – Error!) = Error!=
5;5
Im Durschschnitt wartet man 5,5 Minuten auf die
Straßenbahn!
Stetige Verteilungen
Normalverteilung
Musterbeispiel:
a) Die Brenndauer von Glühlampen ist normalverteilt mit dem Mittelwert µ = 580  30 %. Die Fehlerangabe
basiert auf einem 3  - Intervall. Es werden 8.000 Stück geliefert. Wieviele Glühlampen werden eine
Brenndauer von
- weniger als 600 h
- mehr als 500 h
- zwischen 400 und 700 h
b) Bei der Befüllung von Behältern ist der Sollwert 2.400 g  10 %. Alle Füllungen außerhalb dieser
Grenzen gelten als Ausschuß. Es werden 100.000 Stk. erzeugt und ein Stück Ausschuß erzeugt Kosten
von EUR 1,50. Wie hoch sind die Ausschußkosten, wenn die Abfüllmaschine
- mit 7 % um den Mittelwert 2.400 g streut
- mit 7 % um den Mittelwert 3.000 g streut.
a) Glühlampen
Die Dichtefunktion der Normalverteilung (Gaußsche
Glockenkurve) ist analytisch nicht integrierbar. Die Werte
der Verteilungsfunktion stehen nur in Tabellenform
(standardisierte NVT - also µ = 0 und  = 1) oder als
EXCEL - Funktion NORMVERT(x; µ; ; 1) zur Verfügung
oder in Derive mit normal(x, µ, )
W(X  x) = (x) =
Mag. Wolfgang Streit
1
 2
x
e
1  t  
 

2  
2
dt

Seite 15 von 20
5 CK
Statistik
15. Mai 2016
oder mit der Standardisierung:
z = Error!
(bewirkt eine Verschiebung und eine Stauchung des
Koordinatensystems, sodaß µ = 0 und  = 1 wird)
z2
(z) =
1 2
e
2
Im Beispiel ist µ = 580 und  = 58 (10 % von 580)
- weniger als 600:
Tabelle:
Standardisierung: z = Error! = 0,34
W(X  600) = W(Z  0,34) = (0,34) = (Tabelle) = 0,633
oder: = NORMVERT(600;580;58;1)
- mehr als 500:
Tabelle:
Standardisierung: z = Error! = – 1,38
W(X  500) = W(Z  – 1,38) = 1 – (– 1,38) = …
negative z-Werte sind in der Tabelle nicht ersichtlich,
wegen der Symmetrie der Verteilung bzgl. z = 0 gilt jedoch
(– z) = 1 – (z)
und daher:
1 – (1 – (1,38)) = (1,38) = 0,916
oder: = 1 – NORMVERT(500;580;58;1)
- zwischen 400 und 700:
Tabelle:
Standardisierung: z2 = Error! = 2,07
z1 = Error! = – 3,10
W(400  X  700) = (2,07) – (– 3,10) = (Tabelle) =
(2,07) – ( 1 – (3,10)) = (2,07) – 1 + (3,10) =
0,981 – 1 + 0,999 = 0,98
oder:
= NORMVERT(700;580;58;1)–NORMVERT(400;580;58;1)
Die Wahrscheinlichfunktion für die Brenndauer sind:
weniger als 600 h
63,3 %
mehr als 500 h
91,6 %
zwischen 400 und 700 h
98,0 %
b) Ausschußkosten:
Der erlaubte Bereich ist 2.400 g  10 % = 2.400  240 =
[2.160 / 2.640 ]
Die Maschine füllt mit µ = 2.400 g, also genau im Sollwert,
streut jedoch mit 7 %, dh.  = 168
Der Anteil der Nichtausschußware ist daher:
W(2.160  X  2.640)
Standardisierung liefert z2 = Error! = 1,42 = Error!
und
z1 =
– 1,42.
Es liegt also ein symmetrisches Intervall um den Mittelwert
vor:
(z) – (–z) = (z) – (1 – (z)) = 2 (z) – 1
Mag. Wolfgang Streit
Seite 16 von 20
5 CK
Statistik
15. Mai 2016
W(2.160  X  2.640) = 2 (1,42) – 1 = 2 · 0,922 – 1 =
= 0,844
Der Ausschußanteil beträgt daher 15,6 % und die Kosten
0,156 · 100.000 · 1,5 = 23.400,-Die Maschine erzeugt einen Ausschußanteil von 15,6
% und die Kosten dafür betragen EUR 23.400,--!
Die Maschine füllt mit µ = 3.000 g, also weit über dem
Sollwert und streut mit 7 %, dh.  = 210
Der Anteil der Nichtausschußware ist :
W(2.160  X  2.640)
Standardisierung liefert z2 = Error! = – 1,71
und
z1 = Error!= – 4,00 .
W(2.160  X  2.640) = (–1,71) – (– 4,00) =
1 – (1,71) – (1 – (4,00)) = (4,00) – (1,71) =
1 – 0,956 = 0,044
Der Ausschußanteil beträgt daher 95,6 % und die Kosten
0,956 · 100.000 · 1,5 = 143.400,-Die Maschine erzeugt einen Ausschußanteil von 95,6
% und die Kosten dafür betragen EUR 143.400,--!
Normalverteilung
Näherung der Binomialverteilung - Konfidenzintervall - Prüfplankurven
Musterbeispiel:
a) Ein Betrieb weiß, daß ca. 15 % der Kunden, denen ein schriftliches Offert gemacht wird, auch bestellen.
Es werden 500 Offerte gemacht. Wie groß ist die Wahrscheinlichkeit, daß mehr als 85 Bestellungen
eintreffen?
b) Welche Anzahl von Offerten muß diese Firma aussenden, wenn sie mit einer Wahrscheinlichkeit von
90 % mehr als 80 Bestellungen erhalten will?
c) Die Firma macht eine Stichprobenerhebung mit dem Umfang 200 und erhält einen Wert von 170 sehr
zufriedenen Kunden! Wie groß ist das Konfidenzintervall auf dem Signifikanzniveau 3 - . Wie hoch ist
die Irrtumswahrscheinlichkeit?
d) Die Firma vereinbart mit ihrem Konsumenten für die Annahme einer Lieferung eine Überprüfung durch
eine Stichprobe vom Umfang 30 mit einer Annahmekennzahl 6. Zeichnen Sie eine Prüfplankurve für
diese Situation. Wie hoch ist das Konsumentenrisiko bei einem wahren Ausschußanteil von 25 %? Wie
hoch ist das Produzentenrisiko bei einem wahren Ausschußanteil von 15 %?
a) Berechnung von Wahrscheinlichkeiten:
Es liegt eigentlich eine binomial verteilte Zufallsgrße vor:
Das Merkmal: Bestellung kommt mit einer
Wahrscheinlichkeit 0,15 vor. Eigentlich ist also zu
berechnen:
W(k>85) = 1 – B(85) = 1 – (b(0) + … + b(85)).
mit n = 500, p = 0,15
Ohne geeignete Software ist diese Berechnung mühsam
bis unmöglich.
(in EXCEL geht es über BINOMVERT(k; n; p; 1) sehr
einfach.)
Die Binomialverteilung strebt für n   gegen die
Normalverteilung, wobei folgende Beziehungen gelten:
Mag. Wolfgang Streit
Seite 17 von 20
5 CK
Statistik
15. Mai 2016
n·pµ
np(1  p)  
Aus der Formel der Binomialverteilung entsteht die stetige
Formel der Dichtefunktion der Normalverteilung, wenn man
die Maßstäbe so wählt, daß ein  - Intervall immer gleich
groß ist.
In der Praxis erhält man gute Näherungen, wenn
2 = n p (1 – p) > 9 ist.
Im Beispiel ist
np = µ = 0,15 · 500 = 75
=
500 · 0.15 · 0
85 = 7,98
Man geht daher zur Normalverteilung über und berechnet
die Wahrscheinlichkeit für das Intervall W(- 0,5 / 85,5).
Standardisierung liefert:
z1 = Error! = – 9, 46 und
z2 = Error! = 1,32
Bei der Ersetzung einer diskreten Zufallsgröße durch eine
stetige ist ein Intervall mit der Breite 1 so zu wählen, daß
der zu nähernde k-Wert die Mitte des Intervalls ist.
W(X > 85) = 1 – ( (1,32) – (–9,46)) = 1 –  (1,32) =
(weil (– 9,46) = 0 praktisch)
= 1 – 0,907 = 0,093
Die Wahrscheinlichkeit, daß mehr als 85 Bestellungen
eintreffen, beträgt 9,3 %.
b) Berechnung von Stichprobengrößen:
W(k > 80) = 0,9
Die Binomialverteilung wird durch die Normalverteilung
ersetzt und man erhält:
0,9 = 1 – W(X  80,5) = 1 – (z)
aus der Tabelle oder durch Anwendung der EXCELFunktion:
NORMINV(Wahrscheinlichkeit;Mittelwert;Streuung)
ergibt sich z = – 1,28
mit z = Error!= – 1,28
80,5 – 0,15 n = (– 1,28) ·Error!
6.480,25 – 24,15 n + 0,0225 n2 = 0,208896 n
0,0225 n2 – 24,358896 n + 6.480,25 = 0
liefert die Lösungen:
n1 = 470,6
und n2 = 612
Bei der Auswahl der Lösung ist zu beachten, daß in der
Originalgleichung ein negativer z-Wert erhalten werden
muß, nur n2 erfüllt diese Bedingung.
Die Firma muß mindestens 612 Offerte aussenden,
wenn sie mit einer Sicherheit von 90 % mehr als 80
Bestellungen erhalten will!
c) Konfidenzintervall:
Definition:
h sei die beobachtete relative Häufigkeit eines Ereignisses
E im Rahmen einer Versuchsserie und  eine (große)
Mag. Wolfgang Streit
Seite 18 von 20
5 CK
Statistik
15. Mai 2016
Wahrscheinlichkeit.
Die Menge aller p, deren  - Schätzbereich S(p) den Wert h
enthält, heißt Vertrauensintervall (Konfidenzintervall) für
die Wahrscheinlichkeit von E mit der (statistischen)
Sicherheit , kurz  - Vertrauensintervall für p
Das heißt, es handelt sich um die Umkehrung folgender
Aufgabe:
Die Wahrscheinlichkeit p eines Merkmalwertes in der
Grundgesamtheit ist bekannt. In einer Stichprobe tritt dann
dieses Merkmal mit der Wahrscheinlichkeit  zwischen den
Grenzen h1 und h2 auf. Das Intervall [h1; h2 ] heißt  Schätzbereich. Wir suchen nun jene Werte von p, deren
Schätzbereiche noch die bekannte Häufigkeit h enthalten.
Dies führt auf den Ansatz:
2 (z) – 1 = 
Im Beispiel ist z = 3 (lt. Angabe)  daher 99,7 %.
Eigentlich ist dann folgende Gleichung zu lösen:
3 = Error!= Error!= Error!
9 (200 p (1 – p)) = (170 – 200 p)2
1.800 p – 1.800 p2 = 28.900 – 68.000 p + 40.000 p2
41.800 p2 – 69.800 p + 28.900 = 0
liefert die Lösungen:
p1 = 0,76 und p2 = 0,91
dh. der wahre Anteil liegt mit einer
Irrtumswahrscheinlichkeit von 0,3 % im Intervall [76 % / 91
% ].
Schneller kommt man bei halbwegs großem n mit
folgender Näherung zum Ziel:
1p2 = h  z · Error!, wobei h der Anteil der Merkmalträger
in der Stichprobe ist.
Also:
h = Error!= 0,85 und
1p2 = 0,85  3 · Error! = 0,85  3 · 0,025 = Error!
Die Firma kann auf dem Signifikanzniveau von 99,7 %,
(mit einer Irrtumswahrscheinlichkeit von 0,3 %) mit
einem Anteil von mindestens 77 % und höchstens 93
% zufriedener Kunden rechnen.
Aus dem Signifikanzniveau  ist der z Wert durch den Ansatz 2 (z) – 1 = 
berechenbar. In der Praxis üblich sind
folgende z - Werte incl. der
Sprachregelung:
z=1
 = 68 %
z=2
 = 95 %
signifikant
z=3
 = 99,7 %
hoch signifikant
3  - Unschärfen sind bei wissenschaftlichen
Untersuchungen üblich.
Bemerkung:
d) Prüfplankurven:
Definition:
Aus einer Grundgesamt mit dem Merkmalsanteil p wird
eine Stichprobe vom Umfang n gezogen. Die Stichprobe
wird als angenommen bezeichnet, wenn die Anzahl der
Merkmalträger in der Stichprobe kleiner als eine
Mag. Wolfgang Streit
Seite 19 von 20
5 CK
Statistik
15. Mai 2016
Annahmekennzahl c ist. Die Funktion:
Annahmewahrscheinlichkeit(p) = W(X  c) (p) heißt
Prüfplankurve (oder Operationscharakteristik).
Das Produzentenrisiko ( - Fehler, Fehler erster Art) ist die
Wahrscheinlichkeit, daß die Stichprobe (Lieferung)
abgelehnt wird, obwohl p den Bedingungen entspricht.
Das Konsumentenrisiko ( - Fehler, Fehler 2. Art) ist die
Wahrscheinlichkeit, daß die Stichprobe angenommen wird,
obwohl p den Bedingungen nicht entspricht.
Die Formel für die Prüfplankurve ist:
Annahmewahrscheinlichkeit = W(X<c) = Error!
Im Beispiel ist
c=6
n = 30
daher
W (X < 6) = Error!
Werte erhält man entweder durch einen programmierbaren
Taschenrechner oder durch EXCEL:
= NORMVERT(0;1;(6-30*A2)/(30*A2*(1-A2))^0,5;1)
Vernünftig sind p - Werte um den Wert Error!. Für diesen
Wert hat die Operationscharakteristik immer den Wert 0,5.
Das Konsumentenrisiko beträgt für p = 0,25:
W (X < 6) = Error! = (– 0,63 ) = 0,264
Das Produzentenrisiko beträgt für p = 0,15:
W (X < 6) = 1 – Error! = 1 – (0,766 ) =
1 – 0,78 = 0,22
Das Konsumentenrisiko beträgt bei einem wahren
Ausschußanteil von 25 % 26,4 %, d.h. der Konsument
wird mit einer Häufigkeit von 26,4 % Lieferungen
akzeptieren, weil in der Stichprobe weniger als 6 von
30 (= 20 %) Ausschußstücke vorhanden sind, obwohl
die Ausschußhäufigkeit in der Grundgesamtheit 25 %
beträgt.
Das Produzentenrisiko beträgt bei einem wahren
Ausschußanteil von 15 % 22 %, d.h. der Produzent
wird Lieferungen zurückbekommen, weil 22 % der
Lieferungen mehr als 6 von 30 Ausschußstücke
enthalten, obwohl der wahre Ausschußanteil nur 15 %
beträgt (also besser als gefordert ist)
Mag. Wolfgang Streit
Seite 20 von 20
Herunterladen