Statistik Woche 10

Werbung
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Marcel Dettling
Institute für Datenanalyse und Prozessdesign
Zürcher Hochschule für Angewandte Wissenschaften
[email protected]
http://stat.ethz.ch/~dettling
ETH Zürich, 3. Mai 2017
Marcel Dettling, Zurich University of Applied Sciences
1
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Diskrete Wahrscheinlichkeitsverteilung
Es sei X eine beliebige diskrete Zufallsvariable. Wir bezeichnen
die Werte, die X annehmen kann mit x1 , x2 ,..., xn. Die zugehörigen
Wahrscheinlichkeiten notieren wir mit p ( x1 ), p ( x2 ), p ( x3 ),...
Es ist also: p ( xi )  P( X  xi )
Weil P ()  1 sein muss, gilt auch  i p ( xi )  1 . Man kann die
Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable mit
einer Tabelle darstellen:
X
p()
x1
x2
x3
 xk
p( x1 ) p( x2 ) p ( x3 )  p( xk )
Marcel Dettling, Zurich University of Applied Sciences
2
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Diskrete Wahrscheinlichkeitsfunktion
Y = «Anzahl Kopf bei 10x Münzenwurf»
0.00 0.05 0.10 0.15 0.20 0.25
p(x_i)
W'keitsverteilung für Anzahl Kopf bei 10x Münzenwurf
0
2
4
6
8
10
x_i
Marcel Dettling, Zurich University of Applied Sciences
3
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Kumulative Verteilungsfunktion
F ( xi )  P( X  xi ) , wobei F ()  0 und F ()  1 .
0.6
0.4
0.0
0.2
F(x_i)
0.8
1.0
Kumulative Verteilungsfunktion für Anzahl Kopf bei 10x Münzenwurf
0
2
4
6
8
10
x_i
Marcel Dettling, Zurich University of Applied Sciences
4
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Bernoulli-Verteilung
• Vermutlich die einfachste der diskreten Verteilungen
• Kommt bei Bernoulli-Experimenten zur Anwendung:
- es gibt nur 2 Ergebnisse
- „Erfolg“ und „Misserfolg“
- „Ja“ und „Nein“
- Codiert mit 0 und 1
• Zentral ist die Erfolgswahrscheinlichkeit p:
p  P( X  1) , daraus erhält man auch:
P( X  0)  1  p
Marcel Dettling, Zurich University of Applied Sciences
5
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Beispiel zur Bernoulli-Verteilung
X  “Ein Kandidat besteht die Fahrprüfung“ ~ Bernoulli ( p)
Den Parameter p können wir aus vergangenen Daten schätzen.
In ZH bestanden im Jahr 2011 total 15’100 von 24’801 Personen.
15'100
pˆ 
 0.6088  60.88%
24'801
1.0
0.8
0.6
0.4
0.2
0.0
p(x_i)
Wir können die Verteilung
grafisch als Stabdiagramm
darstellen, siehe rechts.
Bernoulli-Verteilung mit p=0.6088
0
1
x_i
Marcel Dettling, Zurich University of Applied Sciences
6
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Mehrstufige Bernoulli-Experimente
Wir haben:
9 Stufen
10 Urnen
plinks  prechts  0.5
Marcel Dettling, Zurich University of Applied Sciences
7
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Mehrstufige Bernoulli-Experimente
Berechnung der Anzahl Möglichkeiten:
Es gibt offenbar die Tendenz, dass die Bälle bevorzugt in die
Urnen in der Mitte fallen als in jene am Rand. Warum?
Wie viele Möglichkeiten, d.h. wie viele verschiedene Wege gibt
es im 9-stufigen Brett, um in eine bestimmte Urne zu kommen?
1)
2)
3)
4)
0x nach rechts und 9x nach links
1x nach rechts und 8x nach links
2x nach rechts und 9x nach links
…
Marcel Dettling, Zurich University of Applied Sciences
8
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Mehrstufige Bernoulli-Experimente
Berechnung der W’keit für jeden Pfad:
Wir gehen davon aus, dass die W’keiten plinks  prechts  0.5.
Wie gross ist die Wahrscheinlichkeit für jeden einzelnen
Pfad, wo die Kugel genau:
1)
2)
3)
…
10)
0x nach rechts und 9x nach links gesprungen ist.
1x nach rechts und 8x nach links gesprungen ist.
2x nach rechts und 7x nach links gesprungen ist.
9x nach rechts und 0x nach links gesprungen ist.
Marcel Dettling, Zurich University of Applied Sciences
9
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Mehrstufige Bernoulli-Experimente
Asymmetrische Situation: pMisserfo lg  0.75 , pErfo lg  0.25
Das Nagelbrett ist nun nicht mehr die beste Illustration. Wir
denken an ein Geschicklichkeitsexperiment mit Schülern, wo
die Erfolgsw’keit 25% beträgt.
Wir überlegen uns erneut Anzahl Möglichkeiten, um in die
einzelnen Urnen zu gelangen, sowie die W’keiten von jedem
Pfad, welcher in dieselbe Urne führt…
1)
2)
3)
0x Erfolg und 9x Misserfolg.
1x Erfolg und 8x Misserfolg.
…
Marcel Dettling, Zurich University of Applied Sciences
10
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Binomialverteilung
- Es werden n unabhängige Zufallsexperimente gemacht
- Jedes Experiment hat genau 2 Ausgänge: „Erfolg/Misserfolg“
- Die Erfolgswahrscheinlichkeit ist konstant und gleich p
Die Anzahl Erfolge X hat dann eine Binomialverteilung, wo die
Wahrscheinlichkeit für k Erfolge gegeben ist durch:
n k
P( X  k )     p  (1  p) n  k
k 
Es handelt sich um eine diskrete W‘keitsverteilung, wo die
Zahlen 0,1,2,...,n positive Masse haben. Notation:
X ~ Bin(n, p )
Marcel Dettling, Zurich University of Applied Sciences
11
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Beispiel zur Binomialverteilung
X = „Anzahl Fahrschüler von 7, welche die Prüfung bestehen“

Jeder Prüfling stellt für sich ein Bernoulli-Experiment mit
p  0.6088 dar. Natürlich können alle bestehen, oder alle
durchfallen. Der Wertebereich ist X  {0,1, 2,3, 4,5,6,7} .

Achtung, nicht jedes der Resultate ist gleich wahrscheinlich!
Zur Bestimmung der Wahrscheinlichkeiten verwenden wir:
n k
P( X  k )     p  (1  p) n  k für k  0,1, 2,..., n
k 
In R kann man solche W’keiten einfach berechnen, z.B.:
> dbinom(5, size=7, prob=0.6088)
[1] 0.2687758

Marcel Dettling, Zurich University of Applied Sciences
12
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Grafische Darstellung der Verteilung in R
> xx <- 0:7
> yy <- dbinom(xx, size=7, prob=0.6088)
> plot(xx, yy, type="h", xlab=...)
0.10
0.00
p(x_i)
0.20
Binomial-Verteilung mit n=7 und p=0.6088
0
1
2
3
4
5
6
7
x_i
Marcel Dettling, Zurich University of Applied Sciences
13
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Aussehen der Binomialverteilung
X~Bin(n=10,p=1/4)
0.20
0.0
0.00
0.05
0.1
0.10
0.15
P(X=k)
0.3
0.2
P(X=k)
1
• Symmetrie für p 
2
• Bei wachsendem n
auch für p  1/ 2 im-
0.25
0.4
X~Bin(n=4,p=1/4)
1
2
3
4
0
2
4
6
k
k
X~Bin(n=40,p=1/4)
X~Bin(n=100,p=1/4)
8
10
0.08
0.00
0.00
0.02
0.04
P(X=k)
0.06
0.10
0.05
P(X=k)
0
10
20
30
k
Marcel Dettling, Zurich University of Applied Sciences
40
0
20
40
60
mer symmetrischer
• Faustregel: falls
np (1  p )  10, gilt
eine jede Bin(n, p ) Verteilung als
symmetrisch
0.15
0
80
100
k
14
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Bestimmung der Parameter
• Die Anzahl Versuche n ist aus dem Kontext meist einfach
abzulesen und macht keine Probleme.
• Die Erfolgswahrscheinlichkeit p muss hingegen meist aus
den Daten geschätzt werden.
Beispiel: Ein Fussballkenner spielt seit über 10 Jahren fast jede
Woche Sport-Toto. Er hat bereits 507 Mal ein Tippkolonne mit
total 507 13  6 '591 Tipps abgegeben. Davon hat er total
2902x richtig getippt. Seine Erfolgsw'keit beträgt:
2902
pˆ 
 0.44
6591
Marcel Dettling, Zurich University of Applied Sciences
15
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Bestimmung der Parameter
Aufgabe:
Der Minigolfprofi E. Inlocher rühmt sich damit, dass er der
"Hole-In-One"-Spezialist sei. Bei einer Vorführung trifft er in
28 von 34 Versuchen in einem Schlag.
a) wie gross schätzen sie die Erfolgsw'keit p?
b) geben sie die Verteilung der Zufallsvariablen
X  " Anzahl Treffer in 22 Versuchen " an.
c) wie gross ist die W'keit, dass Inlocher in 22 Versuchen
20 oder mehr "Hole-In-Ones" schafft?
Marcel Dettling, Zurich University of Applied Sciences
16
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Poissonverteilung
Die Poisson-Verteilung eignet sich für Vorfälle, die im Laufe
der Zeit eintreten oder sich an einem bestimmten Ort ereignen.
Man interessiert sich für die Anzahl Vorkommnisse in einer
bestimmten Zeitspanne, oder einem festgelegten Gebiet.
Beispiele:
1)
Unfälle in einer Fabrik, auf Strassen, oder anderswo
2)
Defekte in Geräten, an Fahr- oder Flugzeugen
3)
Das Eintreffen von Klienten an einem Schalter
Marcel Dettling, Zurich University of Applied Sciences
17
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Abgrenzung zur Binomialverteilung
•
Wir haben es nicht mehr mit einer bekannten Anzahl
von n Einzelversuchen zu tun, sondern die Grösse
der Population ist unbekannt
•
Der Wertebereich der Zufallsvariablen (d.h. die Anzahl
Ereignisse, welche auftreten können) hat keine klar
definierbare Obergrenze, d.h. k  0,1, 2,...
•
Wir kennen nicht mehr wie bei der Binomial-Verteilung
eine Erfolgsw‘keit p für den Einzelversuch, sondern nur
noch eine Rate  , die beschreibt, mit welcher Häufigkeit
(pro Zeiteinheit, Fläche, etc.) das Ereignis auftritt.
Marcel Dettling, Zurich University of Applied Sciences
18
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Poisson-W‘keitsverteilung
•
Es soll nicht der Anteil, sondern die absolute Häufigkeit
eines bestimmten Ereignisses untersucht werden.
•
Wenn die Ereignisse unabhängig voneinander mit einer
konstanten Rate  passieren, dann hat X = "Anzahl
Ereignisse" eine Poisson-Verteilung.
•
Die Wahrscheinlichkeit für k Ereignisse ist
P( X  k ) 
•
 k exp( )
k!
Kleines  : stark rechtsschief; grosses  : symmetrisch
Marcel Dettling, Zurich University of Applied Sciences
19
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Beispiele zur Poissonverteilung
10
15
0.15
20
0
5
10
15
k
Poisson-Verteilung mit  = 4
Poisson-Verteilung mit  = 8
5
10
k
15
20
20
0.00
0.08
k
W'keit P(X=k)
0
0.00
W'keit P(X=k)
0.6
0.3
5
0.00 0.10 0.20
0
W'keit P(X=k)
Poisson-Verteilung mit  = 2
0.0
W'keit P(X=k)
Poisson-Verteilung mit  = 0.5
0
5
10
15
20
k
20
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Interpretation von 
•
Der Parameter  der Poisson-Verteilung charakterisiert
bereits die Rate, mit welcher die Ereignisse eintreffen.
Wir "erwarten" also innerhalb einer Zeit/ Flächen-Einheit
gerade  Ereignisse.
Beispiel:
Wenn X die Anzahl tödliche Verkehrsunfälle pro Jahr in
der Schweiz beschreibt, so gilt bei durchschnittlich 350
tödlichen Unfällen:
X ~ Pois (350)
Marcel Dettling, Zurich University of Applied Sciences
21
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Faustregel für die Poissonverteilung
Wir können damit eine rasche, grobe Abschätzung treffen, wie
viele Ereignisse sich in der nächsten Periode abspielen. Es gilt
nämlich: ist   10, so beobachten wir "normalerweise"
  2 
Ereignisse,
bzw. genauer:
P[  2   X    2  ]  95%
Übungsaufgabe:
Rechnen sie die Faustregel für die Verkehrsunfälle nach!
Marcel Dettling, Zurich University of Applied Sciences
22
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Bestimmung der Parameter: Poisson
Aufgabe:
Von der Rega-Basis Dübendorf werden im Schnitt pro Tag
7 Einsätze geflogen.
a) wie gross schätzen ist die Rate  ?
b) wir betrachten nun eine Schicht von 8 Stunden Dauer.
Geben sie die Verteilung von X  " Anzahl Einsätze " an.
c) wie gross ist die W'keit, dass die Crew in den 8 Stunden
i) gar nicht, bzw. ii) mehr als 3 mal ausrücken muss?
Marcel Dettling, Zurich University of Applied Sciences
23
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Wahl der passenden Verteilung
1) In einer Packung mit 100 Schrauben sind 10 defekte
darunter. Grösse von Interesse: Anzahl defekter Schrauben
unter 20 zufällig ohne Zurücklegen heraus gegriffenen.
□ Binomial
□ Poisson
□ Andere
2) Im Schnitt kommt auf 20 Seiten eines Buches 1 Druckfehler.
Grösse von Interesse: Anzahl Druckfehler in einem 250seitigen Buch. Wie sieht es aus, wenn wir stattdessen die
Zufallsvariable „Anzahl Seiten in einem 250-seitigen Buch
mit mind. 1 Druckfehler“ betrachten?
□ Binomial
Marcel Dettling, Zurich University of Applied Sciences
□ Poisson
□ Andere
24
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Wahl der passenden Verteilung
1) Die Erfolgsquote beim Elfmeter sei 75%. Grösse von
Interesse: Versenkte Elfmeter (von 5) im Penaltyschiessen.
□ Binomial
□ Poisson
□ Andere
2) In der preussischen Armee starben in 20 Jahren 122
Soldaten an den Folgen eines Huftritts. Grösse von
Interesse: Anzahl Tote im nächsten Jahr
□ Binomial
□ Poisson
□ Andere
3) Die Lampen der Pistenbeleuchtung werden alle 2 Wochen,
kontrolliert. Grösse von Interesse: Kontrolle, bei welcher die
Lampe defekt gefunden wird.
Marcel Dettling, Zurich University of Applied Sciences
25
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Anwendungsaufgabe Geburten
Blick am Abend, 16.10.12
• Was ist an den Kantonen
Appenzell AR und Obwalden speziell?
• Warum sind die hier gemachten Angaben (41%)
schwer interpretierbar?
• Wie müsste man vergleichen, um sinnvolle Aussagen machen zu können?
26
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Anwendungsaufgabe Geburten
Datenquelle: Bundesamt für Statistik, www.bfs.admin.ch
Aug 12 Lebendgeburten nach Kanton
Lebendgeburten
Kantone
Total
Nach Geschlecht
Nach Ziv ilstand der Mutter
Knaben
Verheiratete
Nicht v erheiratete Schw eiz
Mütter
Mütter
Mädchen
Nach Staatsangehörigkeit des Kindes
Ausland
Anteil Knaben
Total
Schweiz
6 962
3 658
3 304
5 630
1 332
5 287
1 675
0.525
Zürich
1 310
680
630
1 046
264
992
318
0.519
Bern
884
452
432
712
172
772
112
0.511
Luzern
363
192
171
292
71
295
68
0.529
36
22
14
31
5
29
7
0.611
124
64
60
108
16
99
25
0.516
Obw alden
39
22
17
33
6
36
3
0.564
Nidw alden
39
18
21
30
9
36
3
0.462
Glarus
30
12
18
21
9
23
7
0.400
Zug
115
62
53
97
18
93
22
0.539
Fribourg
261
141
120
197
64
199
62
0.540
Uri
Schw y z
Marcel Dettling, Zurich University of Applied Sciences
27
GdM 2: LinAlg & Statistik
FS 2017 – Woche 10
Anwendungsaufgabe Geburten
GR: Bin(n=139, p=0.525), 81 Buben
0.06
0.00
0.02
0.04
W'keit
0.08
0.04
0.00
W'keit
0.12
UR: Bin(n=36, p=0.525), 22 Buben
0
5
10 15 20 25 30 35
Buben-Geburten
Marcel Dettling, Zurich University of Applied Sciences
50
60
70
80
90
100
Buben-Geburten
28
Herunterladen