Diskrete Verteilungsmodelle

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Diskrete Verteilungsmodelle
Worum geht es in diesem Modul?
Die hypergeometrische Verteilung
Die Binomialverteilung
Approximation der hypergeometrischen Verteilung durch die Binomialverteilung
Poisson-Verteilung
Die geometrische Verteilung
Die negative Binomialverteilung
Zur Auswahl eines diskreten Verteilungsmodells
Worum geht es in diesem Modul?
Um nicht bei jeder einzelnen Situation aufs Neue eine Wahrscheinlichkeitsverteilung
bestimmen zu müssen, verwenden wir Modelle. Das sind einmal
Wahrscheinlichkeitsverteilungen, die durch wichtige Charakteristiken des jeweiligen
Beobachtungsvorgangs nahe gelegt werden. Zum Zweiten gibt es Verteilungen, die
erfahrungsgemäß in vielen Anwendungen eine gute Anpassung an empirische
Verteilungen ergeben. Dazu ist es nötig, dass sie von einem oder mehreren Parametern
abhängen. Das sind einzelne numerische Werte, die in der Formel der
Wahrscheinlichkeits- bzw. Verteilungsfunktion auftauchen. Sie erlauben die
Feinjustierung der Verteilung für die jeweilige Anwendungssituation.
In diesem Modul werden die wichtigsten diskreten Verteilungsmodelle vorgestellt.
Die hypergeometrische Verteilung
Lotto ist ein Glücksspiel, das um etliches komplizierter ist als Roulette. Das hängt auch
damit zusammen, dass jeweils sechs Kugeln aus 49 gezogen werden, bevor feststeht, ob
ein Tipp gewonnen hat und in welcher Gewinnklasse er ggf. liegt. Zudem gibt es Extras
wie Zusatzzahl, Systemspiele etc. Diese werden hier außen vor gelassen. Es soll nur die
einfachste Situation betrachtet werden, dass auf einem Tippschein sechs der 49 Zahlen
angekreuzt werden. Für jeden Lotto-Spieler stellt sich bei einer Ziehung dann natürlich
die Frage, wie viele der sechs von ihm angekreuzten Zahlen gezogen werden, wie viel
Richtige er hat.
Wie beim Lotto ist beim Ziehen aus einer endlichen Grundgesamtheit häufig nur von
Interesse, ob das gezogene Objekt ein bestimmtes Merkmal besitzt oder nicht. So wird
etwa bei der statistischen Qualitätskontrolle im Rahmen der Gut-Schlecht-Prüfung nur
Page 1
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
untersucht, ob eines der entnommenen Massenprodukte normgerecht ist oder nicht. Wir
sprechen kurz von den markierten Objekten, wenn wir diejenigen meinen, welche die
interessierende Eigenschaft aufweisen. Ist
die Anzahl der markierten unter den
gezogenen Objekten, und beträgt in der Grundgesamtheit vom Umfang
der markierten Objekte
, so hat
Parametern
, kurz eine
und
die Anzahl
eine hypergeometrische Verteilung mit den
-Verteilung. Eine Herleitung der
können Sie in dieser
: Flashanimation ' Animation hypergeometrische Verteilung ' siehe
Online-Version
betrachten.
Die Wahrscheinlichkeitsfunktion ist
Die Bedingung
resultiert daraus,
dass bei entsprechender Zusammensetzung der Elemente in der Urne die Anzahl der
markierten unter den gezogenen Objekten eine Mindestzahl nicht unterschreiten kann.
Dass sie weder die Anzahl
der gezogenen Objekte noch die Anzahl
aller
markierten Objekte übersteigen kann, ist offensichtlich.
Die Auswirkungen der Parameter auf die Gestalt der Wahrscheinlichkeits- und
Verteilungsfunktion können Sie mit diesem
Applet hypergeometrische Verteilung (a50.jar)
studieren.
Der Anteil der markierten Objekte in der Grundgesamtheit beträgt
. Unter den
gezogenen Objekten werden wir einen entsprechenden Anteil an markierten
erwarten, insgesamt also
. Dies ist der . Für die erhalten wir einen Wert, der
von den beiden Anteilen der markierten und der nicht-markierten Objekte, dem Umfang
der Grundgesamtheit und der Anzahl der gezogenen Objekte abhängt.
Die Maßzahlen der hypergeometrischen Verteilung lauten:
Beispiel: Lotto
Die Anzahl
Page 2
der richtigen auf einem Tippschein unter den sechs gezogenen Zahlen
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
-Verteilung. Damit sind die Wahrscheinlichkeiten:
0
0.43596498
1
0.41301945
2
0.13237803
3
0.017650404
4
0.0009686197
5
0.0000184499
6
0.0000000715
Der Erwartungswert ist
. Damit können wir bei einem einzelnen
Tipp kaum mit einer einzelnen Richtigen rechnen.
In einer der "Wetten, dass..?"-Fernsehsendungen, moderiert von Thomas Gottschalk,
gab es eine sehr interessante Wette, die vom Wettpaten als unlösbar bewertet wurde:
Von 20 Schreibtischlampen waren vier Lampen am Stromnetz angeschlossen. Es gab
keine Möglichkeit, durch Beobachtungen festzustellen, welche Lampen am Netz
angeschlossen waren. Der Wettende behauptete, nur durch Fühlen herausfinden zu
können, welche Lampen am Netz angeschlossen waren. Dabei galt es, mindestens drei
von vier Lampen richtig zu benennen. Um überprüfen zu können, ob die Wette auch
durch Raten mit großer Wahrscheinlichkeit zu gewinnen ist, lohnt sich eine Berechnung
dieser Eintrittswahrscheinlichkeiten.
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Titel : Erfühlen des Stromes
Quelle: http://www.ik.fh-hannover.de/ik/person/klenke/Prost/Uebungsaufgaben/wette_neu.pdf
a) Berechnen Sie die Wahrscheinlichkeit für das Ereignis "alle vier angeschlossenen
Lampen werden richtig erkannt" unter der Voraussetzung, dass der pure Zufall am
Werke ist.
b) Ermitteln Sie unter der gleichen Zufallsvoraussetzung die Wahrscheinlichkeit dafür,
dass drei der vier angeschlossenen Lampen richtig ausgewählt werden.
(Die Wette wurde übrigens gegen alle Erwartungen gewonnen.)
Link zur Lösung ( af6.zmpf )
Viele Studenten halten es für effizient und zeitsparend, auf Lücke zu lernen. In dieser
Aufgabe wollen wir überprüfen, ob es wirklich sinnvoll ist, sich lückenhaft
vorzubereiten oder ob das traditionelle Lernen doch die überlegene Variante ist.
Unser Student hat sich auf nur neun Themenbereiche vorbereitet, obwohl 15
prüfungsrelevant sind. Aus den 15 Themenbereichen werden sechs verschiedene für die
Prüfung ausgewählt. Die sechs Prüfungsbereiche werden den 15 Themen zufällig
entnommen. Wir nehmen weiterhin an, dass unser Student alle Themenbereiche, auf die
er sich vorbereitet hat, erfolgreich bearbeiten wird, und Themen, auf die er nicht
vorbereitet war, nicht lösen kann. Um die Prüfung zu bestehen, muss er mindestens drei
der sechs Aufgaben richtig lösen.
a) Berechnen Sie die Wahrscheinlichkeit, dass unser Student die Prüfung besteht.
b) Auf wie viele Themen muss sich unser Student vorbereiten, wenn er unter den
getroffenen Annahmen mit Sicherheit die Prüfung bestehen möchte? (Mit Sicherheit sei
dabei so interpretiert, dass die Wahrscheinlichkeit praktisch eins ist, die Prüfung zu
bestehen.)
Link zur Lösung ( b07.zmpf )
Die Binomialverteilung
Glücksspieler spielen i.d.R. nicht nur einmal, sondern häufiger, bisweilen sogar
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
regelmäßig. Dabei interessiert sie natürlich nur, ob sie bei einem Spiel gewinnen. Dieses
wiederholte Spielen lässt sich im Rahmen der Zufallsexperimente folgendermaßen
erfassen:
Wir betrachten eine Folge von unabhängigen Versuchswiederholungen; bei jeder
Wiederholung interessiert nur, ob ein bestimmtes Ereignis eintritt. Dabei ändert sich die
Eintrittswahrscheinlichkeit für das Ereignis nicht. Eine solche Serie von
Versuchswiederholungen wird als Bernoulli-Prozess bezeichnet. Die Anzahl der
Wiederholungen wird als Länge des Bernoulli-Prozesses bezeichnet.
Das Galton-Brett ist eine Möglichkeit, einen solchen Bernoulli-Prozess zu illustrieren.
Sir Francis Galton und das originale Galton-Brett, das in seinem Auftrag gebaut wurde
Quelle: Stigler, S. M. (1986): The History of Statistics. Harvard University Press
Hier fällt eine Kugel auf einen Nagel; dadurch wird sie nach rechts bzw. links
abgelenkt. Eine Ablenkung nach rechts stellt das Eintreten des interessierenden
Ereignisses dar. Dies geschieht also mit der Wahrscheinlichkeit
. Mit der restlichen
Wahrscheinlichkeit
wird sie nach links abgelenkt. Danach trifft die Kugel auf
einen der beiden Nägel der folgenden Reihe. Mit gleichen Wahrscheinlichkeiten wird
sie wieder jeweils nach rechts bzw. links abgelenkt. Dies geht dann so weiter. Jede
Nagelreihe steht für eine Wiederholung des Zufallsvorganges. Dies kann mit dem
Applet Galton-Brett (b22.jar)
betrachtet werden.
In einem Bernoulli-Prozess der Länge
halten wir nun fest, wie oft das interessierende
Ereignis mit der Eintrittswahrscheinlichkeit
eintritt. Die Anzahl dieser Erfolge sei
. Die Verteilung von
und
. Dafür schreiben wir
-Verteilung lautet:
Page 5
ist dann eine Binomialverteilung mit den Parametern
. Die Wahrscheinlichkeitsfunktion der
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Eine anschauliche Herleitung der Wahrscheinlichkeitsfunktion finden Sie hier, in der
: Flashanimation ' Animation zur Binomialverteilung ' siehe Online-Version
.
Wie die Parameter
und
die Gestalt der Verteilung beeinflussen, können Sie mit
diesem
Applet Wahrscheinlichkeits- und Verteilungsfunktion der Binomialverteilung (b72.jar)
untersuchen.
Bei
Versuchsdurchführungen ist ein Anteil von
insgesamt
Erfolgen zu erwarten, also
Erfolge. Dies ist der Erwartungswert der
Varianz wird umso größer, je größer
-Verteilung. Die
ist und je näher die Wahrscheinlichkeit
½ liegt. Für sehr kleine und sehr große
bei
wird die Varianz kleiner:
Viele Studenten halten es für effizient und zeitsparend, auf Lücke zu lernen. In dieser
Aufgabe wollen wir überprüfen, ob es wirklich sinnvoll ist, sich lückenhaft
vorzubereiten oder ob das traditionelle Lernen doch die überlegene Variante ist.
Unser Student hat sich auf nur neun Themenbereiche vorbereitet, obwohl 15
prüfungsrelevant sind. Aus den 15 Themenbereichen werden sechs verschiedene für die
Prüfung ausgewählt. Die sechs Prüfungsbereiche werden den 15 Themen zufällig
entnommen.
Wie ändert sich die Wahrscheinlichkeit aus Teil a) der ursprünglichen
Aufgabenstellung , wenn die sechs verschiedenen Aufgaben nicht aus verschiedenen
Bereichen stammen müssen, sondern im Rahmen einer einfachen Zufallsstichprobe mit
Zurücklegen aus den 15 Themenbereichen ausgewählt werden? (Es können mehrere
Aufgaben aus den selben Themengebieten ausgewählt werden).
Link zur Lösung ( bb3.zmpf )
In einem Betrieb gehen die 20 Mitarbeiter einer Abteilung alle unabhängig voneinander
mit der gleichen Wahrscheinlichkeit p=0.25 mittags in die Kantine zum Essen.
Wie groß ist die Wahrscheinlichkeit, dass an einem Tag
- alle 20 Mitarbeiter
- mindestens fünf Mitarbeiter
- mehr als fünf, aber weniger als neun Mitarbeiter
essen gehen?
Page 6
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Link zur Lösung ( bc7.zmpf )
Approximation der hypergeometrischen Verteilung durch die Binomialverteilung
Die Binomialverteilung kann verwendet werden, um die hypergeometrische Verteilung
zu approximieren. Dies ist möglich, wenn der Umfang
der Grundgesamtheit
wesentlich größer ist als die Anzahl
der zu ziehenden Elemente. Zudem sollte
,
die Zahl der markierten Elemente in der Grundgesamtheit, weder zu klein sein, noch zu
dicht bei
liegen.
Beispiel: Qualitätskontrolle
Bei der statistischen Qualitätskontrolle wird im Rahmen einer Gut-Schlecht-Prüfung
eine Stichprobe vom Umfang
aus einer großen Lieferung mit
Stück gezogen.
Von Interesse ist die Anzahl
der defekten bzw. fehlerhaften Stücke in der
Stichprobe. Damit möchten wir auf den entsprechenden Anteil in der Lieferung
zurückschließen. Obwohl hier die Unabhängigkeit der Züge nicht exakt gegeben ist,
wird bei genügend großem
doch die Binomialverteilung als
Wahrscheinlichkeitsverteilung für die Anzahl
genommen.
Poisson-Verteilung
Wir betrachten die Anzahl
von Vorkommnissen eines bestimmten Typs in einem
Zeitbereich. Beispiele sind etwa die Anzahl der Kunden pro Tag in der Filiale einer
Bank, die Anzahl der Kraftfahrzeuge, die werktags zwischen 13.00 und 13.15 Uhr
durch einen Straßenabschnitt fahren, die Anzahl der Unfälle in einem Kraftwerk pro
Jahr. Die erwartete Anzahl ist natürlich von der Länge des Zeitintervalls abhängig. Wir
gehen daher von einem Zeitintervall der Länge eins aus und bezeichnen die erwartete
Anzahl mit
Um nun ein plausibles Verteilungsmodell für
zu
erhalten, wird der Zeitbereich
in sehr kurze Teilintervalle zerlegt.
Unter der Annahme, dass
- pro Teilintervall nur ein Vorkommnis geschehen kann,
- in jedem Teilintervall das Vorkommnis mit der gleichen Wahrscheinlichkeit
geschieht,
- das Eintreten der Vorkommnisse in den Teilintervallen unabhängig voneinander
geschieht,
hat
die Wahrscheinlichkeitsfunktion
Page 7
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Hierbei ist
die Eulersche Zahl,
Eine Zufallsvariable
mit dem Parameter
.
mit dieser Wahrscheinlichkeitsfunktion heißt Poisson-verteilt
, i.Z.
. Die Poisson-Verteilung heißt auch
Verteilung der seltenen Ereignisse. Das ist auf Grund der Eingangssituation erklärlich.
Die
: Flashanimation ' Animation Poisson-Verteilung ' siehe Online-Version
illustriert die Herleitung der Poisson-Verteilung anhand einer konkreten Situation.
Die Bedeutung des Parameters für die Gestalt der Wahrscheinlichkeits- und der
Verteilungsfunktion können Sie mit diesem
Applet Poisson-Verteilung (c46.jar)
studieren.
Die Maßzahlen der Verteilung hängen mit dem Parameter
folgendermaßen
zusammen:
Eigenschaften der Poisson-Verteilung
Wie die Animation verdeutlicht, erhalten wir die Poisson-Verteilung aus der
Binomialverteilung durch den Grenzübergang
kleine Werte von
und große Werte von
Für
können also
Binomialwahrscheinlichkeiten mit Hilfe der Poisson-Verteilung bestimmt werden.
Die Summe zweier unabhängiger Poisson-verteilter Zufallsvariablen ist wieder
Poisson-verteilt:
Mit der Länge des Zeitintervalles, in dem die Anzahl von Vorkommnissen betrachtet
wird, hängt eine weitere Begriffsbildung zusammen. Als konkrete Situation sei die
Anzahl
der Verkehrsunfälle in einer Hauptverkehrsstraße während einer Stunde
betrachtet. Sei
; somit ist die erwartete Anzahl der Unfälle pro Stunde
gleich . Pro halbe Stunde werden wir dann die Hälfte der Unfälle erwarten, , pro
Stunde ein
Viertel, , usw. Wenn dann die zugehörige Zufallsvariable = "Anzahl der Unfälle pro
()tel Stunde" wieder Poisson-verteilt ist, so sprechen wir von einem Poisson-Prozess. (
heißt die Rate des Prozesses. Für einen Poisson-Prozess schreiben wir, wenn (t die
Länge des zugehörigen Zeitintervalls ist:
Beispiel: Preußische Kavallerie
Eines der klassischen Beispiele für die Poisson-Verteilung ist die Anzahl der
Kavalleristen der preußischen Armee, die durch Hufschlag getötet wurden. Bei zehn
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Truppenteilen gab es in 20 Jahren die folgenden Anzahlen von Toten pro Jahr und
Truppenteil.
=Anzahl der Getöteten
Anzahl der Truppenteil-Jahre
0
109
1
65
2
22
3
3
4
1
Summe
200
Im Durchschnitt gab es Todesfälle. Für die Poisson-Verteilung mit diesem Parameter
erhalten wir:
.
Multiplizieren wir diese Wahrscheinlichkeiten mit 200, so erhalten wir die jeweils
erwarteten Anzahlen. Es zeigt sich eine gute Übereinstimmung mit den beobachteten
Häufigkeiten.
=Anzahl der Getöteten
Anzahl der Truppenteil-Jahre
Erwartete Anzahl von
Truppenteil-Jahren
0
109
108.7
1
65
66.3
2
22
20.2
3
3
4.1
4
1
0.6
Summe
200
199.9
Untersuchen Sie mit Hilfe des Labors die Güte der Approximation der
Binomialverteilung durch die Poisson-Verteilung. Betrachten Sie dazu die maximale
Differenz der Wahrscheinlichkeiten für einzelne Realisationsmöglichkeiten in der
Page 9
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Situation und lassen Sie größer werden, etwa
Link zur Lösung ( d78.zmpf )
Kommen in einem Hafen zu viele Schiffe gleichzeitig an, so müssen einige warten, bis
sie gelöscht werden können. Das führt zu unerwünschten Kosten für die Reeder.
In einem Hafen gibt es vier Crews zum Entladen. Jedes Schiff wird von einer Crew
entladen; pro Schiff werden sechs Stunden pro Löschung benötigt. Während 50 Tagen
kommen in etwa 500 Schiffe an, im Schnitt 2.5 Schiffe pro Sechs-Stunden-Intervall.
a) Wie groß ist die Wahrscheinlichkeit, dass während einer sechsstündigen
Entladungsphase ein Schiff auf die Löschung warten muss?
b) Wie groß ist die Wahrscheinlichkeit, dass eine Crew während einer sechsstündigen
Entladungsphase untätig herumsitzt?
Link zur Lösung ( d86.zmpf )
Bei einer Brief-Werbeaktion geht eine Firma davon aus, dass es in zwei von 1000
Fällen zu einem Kaufvertrag kommt. Bei einer solchen Werbeserie gehen 8000
Werbeprospekte heraus. Beantworten Sie die beiden folgenden Fragen unter
Verwendung der exakten Verteilung und der approximierenden Poisson-Verteilung.
a) Wie groß ist die Wahrscheinlichkeit, dass genau die erwartete Anzahl von
Kaufverträgen zustande kommt?
b) Wie groß ist die Wahrscheinlichkeit, dass höchstens die erwartete Anzahl von
Verträgen abgeschlossen wird?
Link zur Lösung ( d92.spf )
In einer Kleinstadt sind vermehrt Telefonstörungen aufgetreten. Die zuständige
Telefongesellschaft weiß, dass es in der Kleinstadt Anschlüsse gibt. Die
Wahrscheinlichkeit, dass ein beliebiger Anschluss an einem Tag einer Störung
unterliegt, beträgt sei die Anzahl der Störungen pro Tag.
a) Sind Ihrer Meinung nach die Voraussetzungen für eine Approximation durch eine
Poisson-Verteilung gegeben?
b) Berechnen Sie die Wahrscheinlichkeiten, dass genau fünf bzw. mehr als neun
Störungen auftreten, exakt und approximativ.
Link zur Lösung ( daa.spf )
Die geometrische Verteilung
In Nassstadt gibt es während einer bestimmten Jahreszeit viel Regen. Die Sonne zeigt
sich an einem Tag nur mit einer Wahrscheinlichkeit von 0.2. Zudem ist der
Sonnenschein des einen Tages unabhängig davon, ob am Vortage die Sonne schien. Für
die Bewohner stellt sich dann die Frage, wie lange wohl eine Regenperiode dauert, mit
anderen Worten, wie groß die Wahrscheinlichkeit ist, dass es Tage regnet, bis am ten
wieder einmal nicht regnet.
Titel : 40% Regenwahrscheinlichkeit
Page 10
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Quelle: Eigene Zeichnung
(Anders als die Grafik suggeriert, heißt eine Regenwahrscheinlichkeit von 0.8 nicht,
dass 80% der Menschen im Regen stehen.)
Die Regen-Situation in Nassstadt lässt sich als Bernoulli-Prozess auffassen. Hier ist
nicht wie bei der Binomialverteilung die Anzahl der Erfolge von Interesse, sondern wie
lange es dauert, bis sich der erste Erfolg einstellt. Dies führt zu der folgenden
allgemeinen Situation:
Ein Bernoulli-Prozess mit der Wahrscheinlichkeit für das interessierende Ereignis wird
solange durchgeführt, bis das Ereignis zum ersten Mal eintritt.
Die Zufallsvariable sei die Anzahl der Fehlversuche vor dem ersten Erfolg. Dann ist
geometrisch verteilt mit dem Parameter , i.Z. .
Die Wahrscheinlichkeitsfunktion ist
Eine inhaltliche Herleitung der geometrischen Verteilung findet sich in dieser
: Flashanimation ' Animation Geometrische Verteilung ' siehe Online-Version
.
Die Verteilungsfunktion lässt sich geschlossen angeben:
.
Die Auswirkungen der unterschiedlichen Wahl der Erfolgswahrscheinlichkeit lässt sich
in diesem
Applet Geometrische Verteilung (df2.jar)
studieren.
Es ist einsichtig, dass der Erwartungswert umgekehrt proportional zur
Eintrittswahrscheinlichkeit ist. Je kleiner , desto unplausibler ist das Eintreten des
Ereignisses, desto länger müssen wir auf das erstmalige Eintreten warten. Zusammen
sind die Maßzahlen der Verteilung:
Beispiel: Mensch ärgere dich nicht!
Beim "Mensch ärgere dich nicht!" dürfen wir unsere Figur erst ins Spiel bringen, wenn
wir eine Sechs würfeln.
Titel : Mensch ärgere dich nicht - Ausschnitt
Quelle: Eigene Abbildung
Die Anzahl der Würfe vor der ersten Sechs ist geometrisch verteilt; der Parameter ist .
Damit erhalten wir die Wahrscheinlichkeiten
0
0.16667
1
0.13889
2
0.11574
3
0.09645
4
0.08038
5
0.06698
6
0.05582
7
0.04651
Page 11
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
8
0.03876
9
0.03230
Die Chancen, dass wir gar keine oder höchstens drei Würfel-Runden warten müssen,
betragen schon über 0.5. Immerhin noch in 16 von 100 Spielen wird es passieren, dass
wir mehr als neun Runden brauchen, bis wir ins Spiel kommen.
Die negative Binomialverteilung
Eine Verallgemeinerung der geometrischen Verteilung ergibt sich dadurch, dass wir die
Zufallsvariable = "Anzahl der Fehlversuche vor dem ten Erfolg" zählen. Die zugehörige
Wahrscheinlichkeitsfunktion erfüllt die Rekursion
Da die Definition sinnvoll bleibt, solange gilt, wird von den Parametern der Verteilung
nur verlangt:
Eine Zufallsvariable mit dieser Wahrscheinlichkeitsfunktion heißt negativ
binomialverteilt mit den Parametern
, i.Z. .
Die Maßzahlen der Verteilung sind:
Applet Negative Binomialverteilung (ec9.jar)
Zur Auswahl eines diskreten Verteilungsmodells
Wollen wir nun ein diskretes Verteilungsmodell an einen empirischen Datensatz
anpassen, so gibt es zwei Wege. Im günstigeren Fall können wir aufgrund des
Zufallsmechanismus auf das Verteilungsmodell schließen. Dabei wird oft nur eine
näherungsweise Erfüllung des Zufallsmechanismus vorausgesetzt.
Sind wir bei der Aufstellung eines sachlich angemessenen Modells nicht erfolgreich, so
müssen wir aus dem Werkzeugkasten der bekannten Verteilungen diejenige aussuchen,
die die vorhandenen Daten am besten beschreibt. Dazu sind zunächst die unbekannten
Parameter der Verteilungen aus den Stichproben zu ermitteln. Hier bietet es sich an,
theoretische Maßzahlen durch empirische zu ersetzen und über den Zusammenhang von
Maßzahlen und Parametern zu der Parameter zu gelangen.
Page 12
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Verteilung
Parameter
Schätzwert
Binomialv.
= relative Häufigkeit
Poisson- V.
Geometrische V.
Negative Binomialv.
Als nächstes ist zu überprüfen, welches Modell am besten passt. Hierbei kann ein
Auswahldiagramm helfen. Dieses verwendet die Möglichkeit, den Wert der
Wahrscheinlichkeitsfunktion an einer Stelle mit Hilfe des Wertes an der
vorangegangenen Stelle auszudrücken, zusammen mit der Tatsache, dass bei allen hier
betrachteten Verteilungen die Punkte mit auf einer Geraden mit spezifischen
Eigenschaften liegen.
Verteilung
Achsen-abschnitt
Steigung
Gleichverteilung
0
1
Binomialverteilung
>0
<0
Poisson-Verteilung
>0
0
Geometrische Verteilung
0
>0
Negative
Binomialverteilung
>0
Werden also die mit den Realisationsmöglichkeiten multiplizierten Quotienten
aufeinander folgender , also die , über in einem Diagramm aufgetragen, so sollte sich
bei nicht zu kleinem Stichprobenumfang für jede der Verteilungen in etwa eine Gerade
Page 13
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
ergeben. Dabei ist es wegen der Quotientenbildung egal, ob die absoluten oder relativen
Häufigkeiten verwendet werden.
Beispiel: Ausleihen von Büchern
Die Ausleihhäufigkeiten von Büchern in der Sussex-Universitätsbibliothek stellen sich
wie folgt dar (Burrel, Q.L. and Cane, V.R. (1982) The analysis of library data; Journal
of the Royal Statistical Society, A, 145, 439-471.):
Anzahl Ausleihen
Anzahl
Bücher
1
9674
2
4351
3
2275
4
1250
5
663
6
355
7
154
8
72
9
37
10
14
11
6
12
2
13
0
14
1
Für ein Auswahldiagramm werden nur die Anzahlen 1 bis 12 verwendet.
Quelle: Eigene Berechnungen
Das Streudiagramm mit der eingezeichneten legt ein negatives
Binomialverteilungsmodell nahe. (Achsenabschnitt und Steigung sind positiv.) Dabei ist
Page 14
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
zu beachten, dass der Wert für die Ausleihanzahl nicht möglich ist (bzw. nicht
berücksichtigt wird). Folglich wäre die Verteilung der Ausleihzahlen zu verändern in
Dadurch ist wieder eine diskrete Wahrscheinlichkeitsverteilung gegeben.
Bei Kindern im Alter zwischen vier und elf Jahren wurde die Anzahl der Verletzungen
während einer bestimmten Zeitspanne erhoben (Nach Mellinger et al. (1965) A
mathematical model with applications to a study of accident repeatedness among
children. Journal of the American Statistical Association, 60, 1046-1059):
Welches der hier vorgestellten diskreten Verteilungsmodelle ist am geeignetsten, um die
Daten zu modellieren?
Link zur Lösung ( I10cb.spf )
Geben Sie jeweils mit Begründung an, welches Verteilungsmodell am ehesten in Frage
kommt.
Binomialv.
Anzahl der Jungen,
bis in einer Familie
das erste Mädchen
geboren wird
Anzahl der
Schattenmorellen
mit Stein in einem
700-Gramm Glas
entsteinter
Schattenmorellen.
Anzahl der bei einer
Ausschreibung nicht
zu
berücksichtigenden
Kandidaten, bis man
den letzten für eine
Dreierliste hat.
Anzahl der besetzen
von 46 Sitzplätzen
in einem Linienbus,
der jeweils zur
gleichen Tageszeit
fährt.
Page 15
Poisson-V.
Negative Binomialv. Geometrische V.
(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Verteilungsmodelle
Link zur Lösung (
: I1147.pdf )
Auswahldiagramm
ErklärungBinomialverteilung
Erklärunggeometrische Verteilung
Erklärunghypergeometrische Verteilung
Erklärungnegative Binomialverteilung
ErklärungPoisson-Prozess
ErklärungPoisson-Verteilung
ErklärungRate
Erklärung
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 16
Herunterladen