GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Marcel Dettling Institute für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften [email protected] http://stat.ethz.ch/~dettling ETH Zürich, 3. Mai 2017 Marcel Dettling, Zurich University of Applied Sciences 1 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Diskrete Wahrscheinlichkeitsverteilung Es sei X eine beliebige diskrete Zufallsvariable. Wir bezeichnen die Werte, die X annehmen kann mit x1 , x2 ,..., xn. Die zugehörigen Wahrscheinlichkeiten notieren wir mit p ( x1 ), p ( x2 ), p ( x3 ),... Es ist also: p ( xi ) P( X xi ) Weil P () 1 sein muss, gilt auch i p ( xi ) 1 . Man kann die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable mit einer Tabelle darstellen: X p() x1 x2 x3 xk p( x1 ) p( x2 ) p ( x3 ) p( xk ) Marcel Dettling, Zurich University of Applied Sciences 2 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Diskrete Wahrscheinlichkeitsfunktion Y = «Anzahl Kopf bei 10x Münzenwurf» 0.00 0.05 0.10 0.15 0.20 0.25 p(x_i) W'keitsverteilung für Anzahl Kopf bei 10x Münzenwurf 0 2 4 6 8 10 x_i Marcel Dettling, Zurich University of Applied Sciences 3 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Kumulative Verteilungsfunktion F ( xi ) P( X xi ) , wobei F () 0 und F () 1 . 0.6 0.4 0.0 0.2 F(x_i) 0.8 1.0 Kumulative Verteilungsfunktion für Anzahl Kopf bei 10x Münzenwurf 0 2 4 6 8 10 x_i Marcel Dettling, Zurich University of Applied Sciences 4 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Bernoulli-Verteilung • Vermutlich die einfachste der diskreten Verteilungen • Kommt bei Bernoulli-Experimenten zur Anwendung: - es gibt nur 2 Ergebnisse - „Erfolg“ und „Misserfolg“ - „Ja“ und „Nein“ - Codiert mit 0 und 1 • Zentral ist die Erfolgswahrscheinlichkeit p: p P( X 1) , daraus erhält man auch: P( X 0) 1 p Marcel Dettling, Zurich University of Applied Sciences 5 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Beispiel zur Bernoulli-Verteilung X “Ein Kandidat besteht die Fahrprüfung“ ~ Bernoulli ( p) Den Parameter p können wir aus vergangenen Daten schätzen. In ZH bestanden im Jahr 2011 total 15’100 von 24’801 Personen. 15'100 pˆ 0.6088 60.88% 24'801 1.0 0.8 0.6 0.4 0.2 0.0 p(x_i) Wir können die Verteilung grafisch als Stabdiagramm darstellen, siehe rechts. Bernoulli-Verteilung mit p=0.6088 0 1 x_i Marcel Dettling, Zurich University of Applied Sciences 6 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Mehrstufige Bernoulli-Experimente Wir haben: 9 Stufen 10 Urnen plinks prechts 0.5 Marcel Dettling, Zurich University of Applied Sciences 7 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Mehrstufige Bernoulli-Experimente Berechnung der Anzahl Möglichkeiten: Es gibt offenbar die Tendenz, dass die Bälle bevorzugt in die Urnen in der Mitte fallen als in jene am Rand. Warum? Wie viele Möglichkeiten, d.h. wie viele verschiedene Wege gibt es im 9-stufigen Brett, um in eine bestimmte Urne zu kommen? 1) 2) 3) 4) 0x nach rechts und 9x nach links 1x nach rechts und 8x nach links 2x nach rechts und 9x nach links … Marcel Dettling, Zurich University of Applied Sciences 8 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Mehrstufige Bernoulli-Experimente Berechnung der W’keit für jeden Pfad: Wir gehen davon aus, dass die W’keiten plinks prechts 0.5. Wie gross ist die Wahrscheinlichkeit für jeden einzelnen Pfad, wo die Kugel genau: 1) 2) 3) … 10) 0x nach rechts und 9x nach links gesprungen ist. 1x nach rechts und 8x nach links gesprungen ist. 2x nach rechts und 7x nach links gesprungen ist. 9x nach rechts und 0x nach links gesprungen ist. Marcel Dettling, Zurich University of Applied Sciences 9 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Mehrstufige Bernoulli-Experimente Asymmetrische Situation: pMisserfo lg 0.75 , pErfo lg 0.25 Das Nagelbrett ist nun nicht mehr die beste Illustration. Wir denken an ein Geschicklichkeitsexperiment mit Schülern, wo die Erfolgsw’keit 25% beträgt. Wir überlegen uns erneut Anzahl Möglichkeiten, um in die einzelnen Urnen zu gelangen, sowie die W’keiten von jedem Pfad, welcher in dieselbe Urne führt… 1) 2) 3) 0x Erfolg und 9x Misserfolg. 1x Erfolg und 8x Misserfolg. … Marcel Dettling, Zurich University of Applied Sciences 10 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Binomialverteilung - Es werden n unabhängige Zufallsexperimente gemacht - Jedes Experiment hat genau 2 Ausgänge: „Erfolg/Misserfolg“ - Die Erfolgswahrscheinlichkeit ist konstant und gleich p Die Anzahl Erfolge X hat dann eine Binomialverteilung, wo die Wahrscheinlichkeit für k Erfolge gegeben ist durch: n k P( X k ) p (1 p) n k k Es handelt sich um eine diskrete W‘keitsverteilung, wo die Zahlen 0,1,2,...,n positive Masse haben. Notation: X ~ Bin(n, p ) Marcel Dettling, Zurich University of Applied Sciences 11 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Beispiel zur Binomialverteilung X = „Anzahl Fahrschüler von 7, welche die Prüfung bestehen“ Jeder Prüfling stellt für sich ein Bernoulli-Experiment mit p 0.6088 dar. Natürlich können alle bestehen, oder alle durchfallen. Der Wertebereich ist X {0,1, 2,3, 4,5,6,7} . Achtung, nicht jedes der Resultate ist gleich wahrscheinlich! Zur Bestimmung der Wahrscheinlichkeiten verwenden wir: n k P( X k ) p (1 p) n k für k 0,1, 2,..., n k In R kann man solche W’keiten einfach berechnen, z.B.: > dbinom(5, size=7, prob=0.6088) [1] 0.2687758 Marcel Dettling, Zurich University of Applied Sciences 12 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Grafische Darstellung der Verteilung in R > xx <- 0:7 > yy <- dbinom(xx, size=7, prob=0.6088) > plot(xx, yy, type="h", xlab=...) 0.10 0.00 p(x_i) 0.20 Binomial-Verteilung mit n=7 und p=0.6088 0 1 2 3 4 5 6 7 x_i Marcel Dettling, Zurich University of Applied Sciences 13 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Aussehen der Binomialverteilung X~Bin(n=10,p=1/4) 0.20 0.0 0.00 0.05 0.1 0.10 0.15 P(X=k) 0.3 0.2 P(X=k) 1 • Symmetrie für p 2 • Bei wachsendem n auch für p 1/ 2 im- 0.25 0.4 X~Bin(n=4,p=1/4) 1 2 3 4 0 2 4 6 k k X~Bin(n=40,p=1/4) X~Bin(n=100,p=1/4) 8 10 0.08 0.00 0.00 0.02 0.04 P(X=k) 0.06 0.10 0.05 P(X=k) 0 10 20 30 k Marcel Dettling, Zurich University of Applied Sciences 40 0 20 40 60 mer symmetrischer • Faustregel: falls np (1 p ) 10, gilt eine jede Bin(n, p ) Verteilung als symmetrisch 0.15 0 80 100 k 14 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Bestimmung der Parameter • Die Anzahl Versuche n ist aus dem Kontext meist einfach abzulesen und macht keine Probleme. • Die Erfolgswahrscheinlichkeit p muss hingegen meist aus den Daten geschätzt werden. Beispiel: Ein Fussballkenner spielt seit über 10 Jahren fast jede Woche Sport-Toto. Er hat bereits 507 Mal ein Tippkolonne mit total 507 13 6 '591 Tipps abgegeben. Davon hat er total 2902x richtig getippt. Seine Erfolgsw'keit beträgt: 2902 pˆ 0.44 6591 Marcel Dettling, Zurich University of Applied Sciences 15 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Bestimmung der Parameter Aufgabe: Der Minigolfprofi E. Inlocher rühmt sich damit, dass er der "Hole-In-One"-Spezialist sei. Bei einer Vorführung trifft er in 28 von 34 Versuchen in einem Schlag. a) wie gross schätzen sie die Erfolgsw'keit p? b) geben sie die Verteilung der Zufallsvariablen X " Anzahl Treffer in 22 Versuchen " an. c) wie gross ist die W'keit, dass Inlocher in 22 Versuchen 20 oder mehr "Hole-In-Ones" schafft? Marcel Dettling, Zurich University of Applied Sciences 16 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Poissonverteilung Die Poisson-Verteilung eignet sich für Vorfälle, die im Laufe der Zeit eintreten oder sich an einem bestimmten Ort ereignen. Man interessiert sich für die Anzahl Vorkommnisse in einer bestimmten Zeitspanne, oder einem festgelegten Gebiet. Beispiele: 1) Unfälle in einer Fabrik, auf Strassen, oder anderswo 2) Defekte in Geräten, an Fahr- oder Flugzeugen 3) Das Eintreffen von Klienten an einem Schalter Marcel Dettling, Zurich University of Applied Sciences 17 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Abgrenzung zur Binomialverteilung • Wir haben es nicht mehr mit einer bekannten Anzahl von n Einzelversuchen zu tun, sondern die Grösse der Population ist unbekannt • Der Wertebereich der Zufallsvariablen (d.h. die Anzahl Ereignisse, welche auftreten können) hat keine klar definierbare Obergrenze, d.h. k 0,1, 2,... • Wir kennen nicht mehr wie bei der Binomial-Verteilung eine Erfolgsw‘keit p für den Einzelversuch, sondern nur noch eine Rate , die beschreibt, mit welcher Häufigkeit (pro Zeiteinheit, Fläche, etc.) das Ereignis auftritt. Marcel Dettling, Zurich University of Applied Sciences 18 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Poisson-W‘keitsverteilung • Es soll nicht der Anteil, sondern die absolute Häufigkeit eines bestimmten Ereignisses untersucht werden. • Wenn die Ereignisse unabhängig voneinander mit einer konstanten Rate passieren, dann hat X = "Anzahl Ereignisse" eine Poisson-Verteilung. • Die Wahrscheinlichkeit für k Ereignisse ist P( X k ) • k exp( ) k! Kleines : stark rechtsschief; grosses : symmetrisch Marcel Dettling, Zurich University of Applied Sciences 19 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Beispiele zur Poissonverteilung 10 15 0.15 20 0 5 10 15 k Poisson-Verteilung mit = 4 Poisson-Verteilung mit = 8 5 10 k 15 20 20 0.00 0.08 k W'keit P(X=k) 0 0.00 W'keit P(X=k) 0.6 0.3 5 0.00 0.10 0.20 0 W'keit P(X=k) Poisson-Verteilung mit = 2 0.0 W'keit P(X=k) Poisson-Verteilung mit = 0.5 0 5 10 15 20 k 20 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Interpretation von • Der Parameter der Poisson-Verteilung charakterisiert bereits die Rate, mit welcher die Ereignisse eintreffen. Wir "erwarten" also innerhalb einer Zeit/ Flächen-Einheit gerade Ereignisse. Beispiel: Wenn X die Anzahl tödliche Verkehrsunfälle pro Jahr in der Schweiz beschreibt, so gilt bei durchschnittlich 350 tödlichen Unfällen: X ~ Pois (350) Marcel Dettling, Zurich University of Applied Sciences 21 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Faustregel für die Poissonverteilung Wir können damit eine rasche, grobe Abschätzung treffen, wie viele Ereignisse sich in der nächsten Periode abspielen. Es gilt nämlich: ist 10, so beobachten wir "normalerweise" 2 Ereignisse, bzw. genauer: P[ 2 X 2 ] 95% Übungsaufgabe: Rechnen sie die Faustregel für die Verkehrsunfälle nach! Marcel Dettling, Zurich University of Applied Sciences 22 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Bestimmung der Parameter: Poisson Aufgabe: Von der Rega-Basis Dübendorf werden im Schnitt pro Tag 7 Einsätze geflogen. a) wie gross schätzen ist die Rate ? b) wir betrachten nun eine Schicht von 8 Stunden Dauer. Geben sie die Verteilung von X " Anzahl Einsätze " an. c) wie gross ist die W'keit, dass die Crew in den 8 Stunden i) gar nicht, bzw. ii) mehr als 3 mal ausrücken muss? Marcel Dettling, Zurich University of Applied Sciences 23 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Wahl der passenden Verteilung 1) In einer Packung mit 100 Schrauben sind 10 defekte darunter. Grösse von Interesse: Anzahl defekter Schrauben unter 20 zufällig ohne Zurücklegen heraus gegriffenen. □ Binomial □ Poisson □ Andere 2) Im Schnitt kommt auf 20 Seiten eines Buches 1 Druckfehler. Grösse von Interesse: Anzahl Druckfehler in einem 250seitigen Buch. Wie sieht es aus, wenn wir stattdessen die Zufallsvariable „Anzahl Seiten in einem 250-seitigen Buch mit mind. 1 Druckfehler“ betrachten? □ Binomial Marcel Dettling, Zurich University of Applied Sciences □ Poisson □ Andere 24 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Wahl der passenden Verteilung 1) Die Erfolgsquote beim Elfmeter sei 75%. Grösse von Interesse: Versenkte Elfmeter (von 5) im Penaltyschiessen. □ Binomial □ Poisson □ Andere 2) In der preussischen Armee starben in 20 Jahren 122 Soldaten an den Folgen eines Huftritts. Grösse von Interesse: Anzahl Tote im nächsten Jahr □ Binomial □ Poisson □ Andere 3) Die Lampen der Pistenbeleuchtung werden alle 2 Wochen, kontrolliert. Grösse von Interesse: Kontrolle, bei welcher die Lampe defekt gefunden wird. Marcel Dettling, Zurich University of Applied Sciences 25 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Anwendungsaufgabe Geburten Blick am Abend, 16.10.12 • Was ist an den Kantonen Appenzell AR und Obwalden speziell? • Warum sind die hier gemachten Angaben (41%) schwer interpretierbar? • Wie müsste man vergleichen, um sinnvolle Aussagen machen zu können? 26 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Anwendungsaufgabe Geburten Datenquelle: Bundesamt für Statistik, www.bfs.admin.ch Aug 12 Lebendgeburten nach Kanton Lebendgeburten Kantone Total Nach Geschlecht Nach Ziv ilstand der Mutter Knaben Verheiratete Nicht v erheiratete Schw eiz Mütter Mütter Mädchen Nach Staatsangehörigkeit des Kindes Ausland Anteil Knaben Total Schweiz 6 962 3 658 3 304 5 630 1 332 5 287 1 675 0.525 Zürich 1 310 680 630 1 046 264 992 318 0.519 Bern 884 452 432 712 172 772 112 0.511 Luzern 363 192 171 292 71 295 68 0.529 36 22 14 31 5 29 7 0.611 124 64 60 108 16 99 25 0.516 Obw alden 39 22 17 33 6 36 3 0.564 Nidw alden 39 18 21 30 9 36 3 0.462 Glarus 30 12 18 21 9 23 7 0.400 Zug 115 62 53 97 18 93 22 0.539 Fribourg 261 141 120 197 64 199 62 0.540 Uri Schw y z Marcel Dettling, Zurich University of Applied Sciences 27 GdM 2: LinAlg & Statistik FS 2017 – Woche 10 Anwendungsaufgabe Geburten GR: Bin(n=139, p=0.525), 81 Buben 0.06 0.00 0.02 0.04 W'keit 0.08 0.04 0.00 W'keit 0.12 UR: Bin(n=36, p=0.525), 22 Buben 0 5 10 15 20 25 30 35 Buben-Geburten Marcel Dettling, Zurich University of Applied Sciences 50 60 70 80 90 100 Buben-Geburten 28