(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Diskrete Verteilungsmodelle Worum geht es in diesem Modul? Die hypergeometrische Verteilung Die Binomialverteilung Approximation der hypergeometrischen Verteilung durch die Binomialverteilung Poisson-Verteilung Die geometrische Verteilung Die negative Binomialverteilung Zur Auswahl eines diskreten Verteilungsmodells Worum geht es in diesem Modul? Um nicht bei jeder einzelnen Situation aufs Neue eine Wahrscheinlichkeitsverteilung bestimmen zu müssen, verwenden wir Modelle. Das sind einmal Wahrscheinlichkeitsverteilungen, die durch wichtige Charakteristiken des jeweiligen Beobachtungsvorgangs nahe gelegt werden. Zum Zweiten gibt es Verteilungen, die erfahrungsgemäß in vielen Anwendungen eine gute Anpassung an empirische Verteilungen ergeben. Dazu ist es nötig, dass sie von einem oder mehreren Parametern abhängen. Das sind einzelne numerische Werte, die in der Formel der Wahrscheinlichkeits- bzw. Verteilungsfunktion auftauchen. Sie erlauben die Feinjustierung der Verteilung für die jeweilige Anwendungssituation. In diesem Modul werden die wichtigsten diskreten Verteilungsmodelle vorgestellt. Die hypergeometrische Verteilung Lotto ist ein Glücksspiel, das um etliches komplizierter ist als Roulette. Das hängt auch damit zusammen, dass jeweils sechs Kugeln aus 49 gezogen werden, bevor feststeht, ob ein Tipp gewonnen hat und in welcher Gewinnklasse er ggf. liegt. Zudem gibt es Extras wie Zusatzzahl, Systemspiele etc. Diese werden hier außen vor gelassen. Es soll nur die einfachste Situation betrachtet werden, dass auf einem Tippschein sechs der 49 Zahlen angekreuzt werden. Für jeden Lotto-Spieler stellt sich bei einer Ziehung dann natürlich die Frage, wie viele der sechs von ihm angekreuzten Zahlen gezogen werden, wie viel Richtige er hat. Wie beim Lotto ist beim Ziehen aus einer endlichen Grundgesamtheit häufig nur von Interesse, ob das gezogene Objekt ein bestimmtes Merkmal besitzt oder nicht. So wird etwa bei der statistischen Qualitätskontrolle im Rahmen der Gut-Schlecht-Prüfung nur Page 1 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle untersucht, ob eines der entnommenen Massenprodukte normgerecht ist oder nicht. Wir sprechen kurz von den markierten Objekten, wenn wir diejenigen meinen, welche die interessierende Eigenschaft aufweisen. Ist die Anzahl der markierten unter den gezogenen Objekten, und beträgt in der Grundgesamtheit vom Umfang der markierten Objekte , so hat Parametern , kurz eine und die Anzahl eine hypergeometrische Verteilung mit den -Verteilung. Eine Herleitung der können Sie in dieser : Flashanimation ' Animation hypergeometrische Verteilung ' siehe Online-Version betrachten. Die Wahrscheinlichkeitsfunktion ist Die Bedingung resultiert daraus, dass bei entsprechender Zusammensetzung der Elemente in der Urne die Anzahl der markierten unter den gezogenen Objekten eine Mindestzahl nicht unterschreiten kann. Dass sie weder die Anzahl der gezogenen Objekte noch die Anzahl aller markierten Objekte übersteigen kann, ist offensichtlich. Die Auswirkungen der Parameter auf die Gestalt der Wahrscheinlichkeits- und Verteilungsfunktion können Sie mit diesem Applet hypergeometrische Verteilung (a50.jar) studieren. Der Anteil der markierten Objekte in der Grundgesamtheit beträgt . Unter den gezogenen Objekten werden wir einen entsprechenden Anteil an markierten erwarten, insgesamt also . Dies ist der . Für die erhalten wir einen Wert, der von den beiden Anteilen der markierten und der nicht-markierten Objekte, dem Umfang der Grundgesamtheit und der Anzahl der gezogenen Objekte abhängt. Die Maßzahlen der hypergeometrischen Verteilung lauten: Beispiel: Lotto Die Anzahl Page 2 der richtigen auf einem Tippschein unter den sechs gezogenen Zahlen (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle -Verteilung. Damit sind die Wahrscheinlichkeiten: 0 0.43596498 1 0.41301945 2 0.13237803 3 0.017650404 4 0.0009686197 5 0.0000184499 6 0.0000000715 Der Erwartungswert ist . Damit können wir bei einem einzelnen Tipp kaum mit einer einzelnen Richtigen rechnen. In einer der "Wetten, dass..?"-Fernsehsendungen, moderiert von Thomas Gottschalk, gab es eine sehr interessante Wette, die vom Wettpaten als unlösbar bewertet wurde: Von 20 Schreibtischlampen waren vier Lampen am Stromnetz angeschlossen. Es gab keine Möglichkeit, durch Beobachtungen festzustellen, welche Lampen am Netz angeschlossen waren. Der Wettende behauptete, nur durch Fühlen herausfinden zu können, welche Lampen am Netz angeschlossen waren. Dabei galt es, mindestens drei von vier Lampen richtig zu benennen. Um überprüfen zu können, ob die Wette auch durch Raten mit großer Wahrscheinlichkeit zu gewinnen ist, lohnt sich eine Berechnung dieser Eintrittswahrscheinlichkeiten. Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Titel : Erfühlen des Stromes Quelle: http://www.ik.fh-hannover.de/ik/person/klenke/Prost/Uebungsaufgaben/wette_neu.pdf a) Berechnen Sie die Wahrscheinlichkeit für das Ereignis "alle vier angeschlossenen Lampen werden richtig erkannt" unter der Voraussetzung, dass der pure Zufall am Werke ist. b) Ermitteln Sie unter der gleichen Zufallsvoraussetzung die Wahrscheinlichkeit dafür, dass drei der vier angeschlossenen Lampen richtig ausgewählt werden. (Die Wette wurde übrigens gegen alle Erwartungen gewonnen.) Link zur Lösung ( af6.zmpf ) Viele Studenten halten es für effizient und zeitsparend, auf Lücke zu lernen. In dieser Aufgabe wollen wir überprüfen, ob es wirklich sinnvoll ist, sich lückenhaft vorzubereiten oder ob das traditionelle Lernen doch die überlegene Variante ist. Unser Student hat sich auf nur neun Themenbereiche vorbereitet, obwohl 15 prüfungsrelevant sind. Aus den 15 Themenbereichen werden sechs verschiedene für die Prüfung ausgewählt. Die sechs Prüfungsbereiche werden den 15 Themen zufällig entnommen. Wir nehmen weiterhin an, dass unser Student alle Themenbereiche, auf die er sich vorbereitet hat, erfolgreich bearbeiten wird, und Themen, auf die er nicht vorbereitet war, nicht lösen kann. Um die Prüfung zu bestehen, muss er mindestens drei der sechs Aufgaben richtig lösen. a) Berechnen Sie die Wahrscheinlichkeit, dass unser Student die Prüfung besteht. b) Auf wie viele Themen muss sich unser Student vorbereiten, wenn er unter den getroffenen Annahmen mit Sicherheit die Prüfung bestehen möchte? (Mit Sicherheit sei dabei so interpretiert, dass die Wahrscheinlichkeit praktisch eins ist, die Prüfung zu bestehen.) Link zur Lösung ( b07.zmpf ) Die Binomialverteilung Glücksspieler spielen i.d.R. nicht nur einmal, sondern häufiger, bisweilen sogar Page 4 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle regelmäßig. Dabei interessiert sie natürlich nur, ob sie bei einem Spiel gewinnen. Dieses wiederholte Spielen lässt sich im Rahmen der Zufallsexperimente folgendermaßen erfassen: Wir betrachten eine Folge von unabhängigen Versuchswiederholungen; bei jeder Wiederholung interessiert nur, ob ein bestimmtes Ereignis eintritt. Dabei ändert sich die Eintrittswahrscheinlichkeit für das Ereignis nicht. Eine solche Serie von Versuchswiederholungen wird als Bernoulli-Prozess bezeichnet. Die Anzahl der Wiederholungen wird als Länge des Bernoulli-Prozesses bezeichnet. Das Galton-Brett ist eine Möglichkeit, einen solchen Bernoulli-Prozess zu illustrieren. Sir Francis Galton und das originale Galton-Brett, das in seinem Auftrag gebaut wurde Quelle: Stigler, S. M. (1986): The History of Statistics. Harvard University Press Hier fällt eine Kugel auf einen Nagel; dadurch wird sie nach rechts bzw. links abgelenkt. Eine Ablenkung nach rechts stellt das Eintreten des interessierenden Ereignisses dar. Dies geschieht also mit der Wahrscheinlichkeit . Mit der restlichen Wahrscheinlichkeit wird sie nach links abgelenkt. Danach trifft die Kugel auf einen der beiden Nägel der folgenden Reihe. Mit gleichen Wahrscheinlichkeiten wird sie wieder jeweils nach rechts bzw. links abgelenkt. Dies geht dann so weiter. Jede Nagelreihe steht für eine Wiederholung des Zufallsvorganges. Dies kann mit dem Applet Galton-Brett (b22.jar) betrachtet werden. In einem Bernoulli-Prozess der Länge halten wir nun fest, wie oft das interessierende Ereignis mit der Eintrittswahrscheinlichkeit eintritt. Die Anzahl dieser Erfolge sei . Die Verteilung von und . Dafür schreiben wir -Verteilung lautet: Page 5 ist dann eine Binomialverteilung mit den Parametern . Die Wahrscheinlichkeitsfunktion der (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Eine anschauliche Herleitung der Wahrscheinlichkeitsfunktion finden Sie hier, in der : Flashanimation ' Animation zur Binomialverteilung ' siehe Online-Version . Wie die Parameter und die Gestalt der Verteilung beeinflussen, können Sie mit diesem Applet Wahrscheinlichkeits- und Verteilungsfunktion der Binomialverteilung (b72.jar) untersuchen. Bei Versuchsdurchführungen ist ein Anteil von insgesamt Erfolgen zu erwarten, also Erfolge. Dies ist der Erwartungswert der Varianz wird umso größer, je größer -Verteilung. Die ist und je näher die Wahrscheinlichkeit &frac12; liegt. Für sehr kleine und sehr große bei wird die Varianz kleiner: Viele Studenten halten es für effizient und zeitsparend, auf Lücke zu lernen. In dieser Aufgabe wollen wir überprüfen, ob es wirklich sinnvoll ist, sich lückenhaft vorzubereiten oder ob das traditionelle Lernen doch die überlegene Variante ist. Unser Student hat sich auf nur neun Themenbereiche vorbereitet, obwohl 15 prüfungsrelevant sind. Aus den 15 Themenbereichen werden sechs verschiedene für die Prüfung ausgewählt. Die sechs Prüfungsbereiche werden den 15 Themen zufällig entnommen. Wie ändert sich die Wahrscheinlichkeit aus Teil a) der ursprünglichen Aufgabenstellung , wenn die sechs verschiedenen Aufgaben nicht aus verschiedenen Bereichen stammen müssen, sondern im Rahmen einer einfachen Zufallsstichprobe mit Zurücklegen aus den 15 Themenbereichen ausgewählt werden? (Es können mehrere Aufgaben aus den selben Themengebieten ausgewählt werden). Link zur Lösung ( bb3.zmpf ) In einem Betrieb gehen die 20 Mitarbeiter einer Abteilung alle unabhängig voneinander mit der gleichen Wahrscheinlichkeit p=0.25 mittags in die Kantine zum Essen. Wie groß ist die Wahrscheinlichkeit, dass an einem Tag - alle 20 Mitarbeiter - mindestens fünf Mitarbeiter - mehr als fünf, aber weniger als neun Mitarbeiter essen gehen? Page 6 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Link zur Lösung ( bc7.zmpf ) Approximation der hypergeometrischen Verteilung durch die Binomialverteilung Die Binomialverteilung kann verwendet werden, um die hypergeometrische Verteilung zu approximieren. Dies ist möglich, wenn der Umfang der Grundgesamtheit wesentlich größer ist als die Anzahl der zu ziehenden Elemente. Zudem sollte , die Zahl der markierten Elemente in der Grundgesamtheit, weder zu klein sein, noch zu dicht bei liegen. Beispiel: Qualitätskontrolle Bei der statistischen Qualitätskontrolle wird im Rahmen einer Gut-Schlecht-Prüfung eine Stichprobe vom Umfang aus einer großen Lieferung mit Stück gezogen. Von Interesse ist die Anzahl der defekten bzw. fehlerhaften Stücke in der Stichprobe. Damit möchten wir auf den entsprechenden Anteil in der Lieferung zurückschließen. Obwohl hier die Unabhängigkeit der Züge nicht exakt gegeben ist, wird bei genügend großem doch die Binomialverteilung als Wahrscheinlichkeitsverteilung für die Anzahl genommen. Poisson-Verteilung Wir betrachten die Anzahl von Vorkommnissen eines bestimmten Typs in einem Zeitbereich. Beispiele sind etwa die Anzahl der Kunden pro Tag in der Filiale einer Bank, die Anzahl der Kraftfahrzeuge, die werktags zwischen 13.00 und 13.15 Uhr durch einen Straßenabschnitt fahren, die Anzahl der Unfälle in einem Kraftwerk pro Jahr. Die erwartete Anzahl ist natürlich von der Länge des Zeitintervalls abhängig. Wir gehen daher von einem Zeitintervall der Länge eins aus und bezeichnen die erwartete Anzahl mit Um nun ein plausibles Verteilungsmodell für zu erhalten, wird der Zeitbereich in sehr kurze Teilintervalle zerlegt. Unter der Annahme, dass - pro Teilintervall nur ein Vorkommnis geschehen kann, - in jedem Teilintervall das Vorkommnis mit der gleichen Wahrscheinlichkeit geschieht, - das Eintreten der Vorkommnisse in den Teilintervallen unabhängig voneinander geschieht, hat die Wahrscheinlichkeitsfunktion Page 7 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Hierbei ist die Eulersche Zahl, Eine Zufallsvariable mit dem Parameter . mit dieser Wahrscheinlichkeitsfunktion heißt Poisson-verteilt , i.Z. . Die Poisson-Verteilung heißt auch Verteilung der seltenen Ereignisse. Das ist auf Grund der Eingangssituation erklärlich. Die : Flashanimation ' Animation Poisson-Verteilung ' siehe Online-Version illustriert die Herleitung der Poisson-Verteilung anhand einer konkreten Situation. Die Bedeutung des Parameters für die Gestalt der Wahrscheinlichkeits- und der Verteilungsfunktion können Sie mit diesem Applet Poisson-Verteilung (c46.jar) studieren. Die Maßzahlen der Verteilung hängen mit dem Parameter folgendermaßen zusammen: Eigenschaften der Poisson-Verteilung Wie die Animation verdeutlicht, erhalten wir die Poisson-Verteilung aus der Binomialverteilung durch den Grenzübergang kleine Werte von und große Werte von Für können also Binomialwahrscheinlichkeiten mit Hilfe der Poisson-Verteilung bestimmt werden. Die Summe zweier unabhängiger Poisson-verteilter Zufallsvariablen ist wieder Poisson-verteilt: Mit der Länge des Zeitintervalles, in dem die Anzahl von Vorkommnissen betrachtet wird, hängt eine weitere Begriffsbildung zusammen. Als konkrete Situation sei die Anzahl der Verkehrsunfälle in einer Hauptverkehrsstraße während einer Stunde betrachtet. Sei ; somit ist die erwartete Anzahl der Unfälle pro Stunde gleich . Pro halbe Stunde werden wir dann die Hälfte der Unfälle erwarten, , pro Stunde ein Viertel, , usw. Wenn dann die zugehörige Zufallsvariable = "Anzahl der Unfälle pro ()tel Stunde" wieder Poisson-verteilt ist, so sprechen wir von einem Poisson-Prozess. ( heißt die Rate des Prozesses. Für einen Poisson-Prozess schreiben wir, wenn (t die Länge des zugehörigen Zeitintervalls ist: Beispiel: Preußische Kavallerie Eines der klassischen Beispiele für die Poisson-Verteilung ist die Anzahl der Kavalleristen der preußischen Armee, die durch Hufschlag getötet wurden. Bei zehn Page 8 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Truppenteilen gab es in 20 Jahren die folgenden Anzahlen von Toten pro Jahr und Truppenteil. =Anzahl der Getöteten Anzahl der Truppenteil-Jahre 0 109 1 65 2 22 3 3 4 1 Summe 200 Im Durchschnitt gab es Todesfälle. Für die Poisson-Verteilung mit diesem Parameter erhalten wir: . Multiplizieren wir diese Wahrscheinlichkeiten mit 200, so erhalten wir die jeweils erwarteten Anzahlen. Es zeigt sich eine gute Übereinstimmung mit den beobachteten Häufigkeiten. =Anzahl der Getöteten Anzahl der Truppenteil-Jahre Erwartete Anzahl von Truppenteil-Jahren 0 109 108.7 1 65 66.3 2 22 20.2 3 3 4.1 4 1 0.6 Summe 200 199.9 Untersuchen Sie mit Hilfe des Labors die Güte der Approximation der Binomialverteilung durch die Poisson-Verteilung. Betrachten Sie dazu die maximale Differenz der Wahrscheinlichkeiten für einzelne Realisationsmöglichkeiten in der Page 9 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Situation und lassen Sie größer werden, etwa Link zur Lösung ( d78.zmpf ) Kommen in einem Hafen zu viele Schiffe gleichzeitig an, so müssen einige warten, bis sie gelöscht werden können. Das führt zu unerwünschten Kosten für die Reeder. In einem Hafen gibt es vier Crews zum Entladen. Jedes Schiff wird von einer Crew entladen; pro Schiff werden sechs Stunden pro Löschung benötigt. Während 50 Tagen kommen in etwa 500 Schiffe an, im Schnitt 2.5 Schiffe pro Sechs-Stunden-Intervall. a) Wie groß ist die Wahrscheinlichkeit, dass während einer sechsstündigen Entladungsphase ein Schiff auf die Löschung warten muss? b) Wie groß ist die Wahrscheinlichkeit, dass eine Crew während einer sechsstündigen Entladungsphase untätig herumsitzt? Link zur Lösung ( d86.zmpf ) Bei einer Brief-Werbeaktion geht eine Firma davon aus, dass es in zwei von 1000 Fällen zu einem Kaufvertrag kommt. Bei einer solchen Werbeserie gehen 8000 Werbeprospekte heraus. Beantworten Sie die beiden folgenden Fragen unter Verwendung der exakten Verteilung und der approximierenden Poisson-Verteilung. a) Wie groß ist die Wahrscheinlichkeit, dass genau die erwartete Anzahl von Kaufverträgen zustande kommt? b) Wie groß ist die Wahrscheinlichkeit, dass höchstens die erwartete Anzahl von Verträgen abgeschlossen wird? Link zur Lösung ( d92.spf ) In einer Kleinstadt sind vermehrt Telefonstörungen aufgetreten. Die zuständige Telefongesellschaft weiß, dass es in der Kleinstadt Anschlüsse gibt. Die Wahrscheinlichkeit, dass ein beliebiger Anschluss an einem Tag einer Störung unterliegt, beträgt sei die Anzahl der Störungen pro Tag. a) Sind Ihrer Meinung nach die Voraussetzungen für eine Approximation durch eine Poisson-Verteilung gegeben? b) Berechnen Sie die Wahrscheinlichkeiten, dass genau fünf bzw. mehr als neun Störungen auftreten, exakt und approximativ. Link zur Lösung ( daa.spf ) Die geometrische Verteilung In Nassstadt gibt es während einer bestimmten Jahreszeit viel Regen. Die Sonne zeigt sich an einem Tag nur mit einer Wahrscheinlichkeit von 0.2. Zudem ist der Sonnenschein des einen Tages unabhängig davon, ob am Vortage die Sonne schien. Für die Bewohner stellt sich dann die Frage, wie lange wohl eine Regenperiode dauert, mit anderen Worten, wie groß die Wahrscheinlichkeit ist, dass es Tage regnet, bis am ten wieder einmal nicht regnet. Titel : 40% Regenwahrscheinlichkeit Page 10 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Quelle: Eigene Zeichnung (Anders als die Grafik suggeriert, heißt eine Regenwahrscheinlichkeit von 0.8 nicht, dass 80% der Menschen im Regen stehen.) Die Regen-Situation in Nassstadt lässt sich als Bernoulli-Prozess auffassen. Hier ist nicht wie bei der Binomialverteilung die Anzahl der Erfolge von Interesse, sondern wie lange es dauert, bis sich der erste Erfolg einstellt. Dies führt zu der folgenden allgemeinen Situation: Ein Bernoulli-Prozess mit der Wahrscheinlichkeit für das interessierende Ereignis wird solange durchgeführt, bis das Ereignis zum ersten Mal eintritt. Die Zufallsvariable sei die Anzahl der Fehlversuche vor dem ersten Erfolg. Dann ist geometrisch verteilt mit dem Parameter , i.Z. . Die Wahrscheinlichkeitsfunktion ist Eine inhaltliche Herleitung der geometrischen Verteilung findet sich in dieser : Flashanimation ' Animation Geometrische Verteilung ' siehe Online-Version . Die Verteilungsfunktion lässt sich geschlossen angeben: . Die Auswirkungen der unterschiedlichen Wahl der Erfolgswahrscheinlichkeit lässt sich in diesem Applet Geometrische Verteilung (df2.jar) studieren. Es ist einsichtig, dass der Erwartungswert umgekehrt proportional zur Eintrittswahrscheinlichkeit ist. Je kleiner , desto unplausibler ist das Eintreten des Ereignisses, desto länger müssen wir auf das erstmalige Eintreten warten. Zusammen sind die Maßzahlen der Verteilung: Beispiel: Mensch ärgere dich nicht! Beim "Mensch ärgere dich nicht!" dürfen wir unsere Figur erst ins Spiel bringen, wenn wir eine Sechs würfeln. Titel : Mensch ärgere dich nicht - Ausschnitt Quelle: Eigene Abbildung Die Anzahl der Würfe vor der ersten Sechs ist geometrisch verteilt; der Parameter ist . Damit erhalten wir die Wahrscheinlichkeiten 0 0.16667 1 0.13889 2 0.11574 3 0.09645 4 0.08038 5 0.06698 6 0.05582 7 0.04651 Page 11 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle 8 0.03876 9 0.03230 Die Chancen, dass wir gar keine oder höchstens drei Würfel-Runden warten müssen, betragen schon über 0.5. Immerhin noch in 16 von 100 Spielen wird es passieren, dass wir mehr als neun Runden brauchen, bis wir ins Spiel kommen. Die negative Binomialverteilung Eine Verallgemeinerung der geometrischen Verteilung ergibt sich dadurch, dass wir die Zufallsvariable = "Anzahl der Fehlversuche vor dem ten Erfolg" zählen. Die zugehörige Wahrscheinlichkeitsfunktion erfüllt die Rekursion Da die Definition sinnvoll bleibt, solange gilt, wird von den Parametern der Verteilung nur verlangt: Eine Zufallsvariable mit dieser Wahrscheinlichkeitsfunktion heißt negativ binomialverteilt mit den Parametern , i.Z. . Die Maßzahlen der Verteilung sind: Applet Negative Binomialverteilung (ec9.jar) Zur Auswahl eines diskreten Verteilungsmodells Wollen wir nun ein diskretes Verteilungsmodell an einen empirischen Datensatz anpassen, so gibt es zwei Wege. Im günstigeren Fall können wir aufgrund des Zufallsmechanismus auf das Verteilungsmodell schließen. Dabei wird oft nur eine näherungsweise Erfüllung des Zufallsmechanismus vorausgesetzt. Sind wir bei der Aufstellung eines sachlich angemessenen Modells nicht erfolgreich, so müssen wir aus dem Werkzeugkasten der bekannten Verteilungen diejenige aussuchen, die die vorhandenen Daten am besten beschreibt. Dazu sind zunächst die unbekannten Parameter der Verteilungen aus den Stichproben zu ermitteln. Hier bietet es sich an, theoretische Maßzahlen durch empirische zu ersetzen und über den Zusammenhang von Maßzahlen und Parametern zu der Parameter zu gelangen. Page 12 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Verteilung Parameter Schätzwert Binomialv. = relative Häufigkeit Poisson- V. Geometrische V. Negative Binomialv. Als nächstes ist zu überprüfen, welches Modell am besten passt. Hierbei kann ein Auswahldiagramm helfen. Dieses verwendet die Möglichkeit, den Wert der Wahrscheinlichkeitsfunktion an einer Stelle mit Hilfe des Wertes an der vorangegangenen Stelle auszudrücken, zusammen mit der Tatsache, dass bei allen hier betrachteten Verteilungen die Punkte mit auf einer Geraden mit spezifischen Eigenschaften liegen. Verteilung Achsen-abschnitt Steigung Gleichverteilung 0 1 Binomialverteilung >0 <0 Poisson-Verteilung >0 0 Geometrische Verteilung 0 >0 Negative Binomialverteilung >0 Werden also die mit den Realisationsmöglichkeiten multiplizierten Quotienten aufeinander folgender , also die , über in einem Diagramm aufgetragen, so sollte sich bei nicht zu kleinem Stichprobenumfang für jede der Verteilungen in etwa eine Gerade Page 13 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle ergeben. Dabei ist es wegen der Quotientenbildung egal, ob die absoluten oder relativen Häufigkeiten verwendet werden. Beispiel: Ausleihen von Büchern Die Ausleihhäufigkeiten von Büchern in der Sussex-Universitätsbibliothek stellen sich wie folgt dar (Burrel, Q.L. and Cane, V.R. (1982) The analysis of library data; Journal of the Royal Statistical Society, A, 145, 439-471.): Anzahl Ausleihen Anzahl Bücher 1 9674 2 4351 3 2275 4 1250 5 663 6 355 7 154 8 72 9 37 10 14 11 6 12 2 13 0 14 1 Für ein Auswahldiagramm werden nur die Anzahlen 1 bis 12 verwendet. Quelle: Eigene Berechnungen Das Streudiagramm mit der eingezeichneten legt ein negatives Binomialverteilungsmodell nahe. (Achsenabschnitt und Steigung sind positiv.) Dabei ist Page 14 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle zu beachten, dass der Wert für die Ausleihanzahl nicht möglich ist (bzw. nicht berücksichtigt wird). Folglich wäre die Verteilung der Ausleihzahlen zu verändern in Dadurch ist wieder eine diskrete Wahrscheinlichkeitsverteilung gegeben. Bei Kindern im Alter zwischen vier und elf Jahren wurde die Anzahl der Verletzungen während einer bestimmten Zeitspanne erhoben (Nach Mellinger et al. (1965) A mathematical model with applications to a study of accident repeatedness among children. Journal of the American Statistical Association, 60, 1046-1059): Welches der hier vorgestellten diskreten Verteilungsmodelle ist am geeignetsten, um die Daten zu modellieren? Link zur Lösung ( I10cb.spf ) Geben Sie jeweils mit Begründung an, welches Verteilungsmodell am ehesten in Frage kommt. Binomialv. Anzahl der Jungen, bis in einer Familie das erste Mädchen geboren wird Anzahl der Schattenmorellen mit Stein in einem 700-Gramm Glas entsteinter Schattenmorellen. Anzahl der bei einer Ausschreibung nicht zu berücksichtigenden Kandidaten, bis man den letzten für eine Dreierliste hat. Anzahl der besetzen von 46 Sitzplätzen in einem Linienbus, der jeweils zur gleichen Tageszeit fährt. Page 15 Poisson-V. Negative Binomialv. Geometrische V. (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle Link zur Lösung ( : I1147.pdf ) Auswahldiagramm ErklärungBinomialverteilung Erklärunggeometrische Verteilung Erklärunghypergeometrische Verteilung Erklärungnegative Binomialverteilung ErklärungPoisson-Prozess ErklärungPoisson-Verteilung ErklärungRate Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 16