Stetige Verteilungsmodelle

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Stetige Verteilungsmodelle
Worum geht es in diesem Modul?
Stetige Verteilungsfunktionen
Quantile
Dichtefunktion
Maßzahlen stetiger Verteilungen
Stetige Gleichverteilung
Exponentialverteilung
Überprüfung der Exponentialverteilung
Die Laplace-Verteilung
Die Pareto-Verteilung
Worum geht es in diesem Modul?
Stetige Verteilungsfunktionen werden unter zwei Gesichtspunkten eingeführt. Einmal
sind sie bei Zufallsvariablen, die viele verschiedene Realisationsmöglichkeiten haben
und nicht-ganzzahlige oder negative Werte annehmen können, zur Modellierung
angebracht. Dann dienen sie auch zur Approximation für diskrete Verteilungen, um
Wahrscheinlichkeiten einfacher zu berechnen. Wir lernen in diesem Modul die
wichtigsten Eigenschaften stetiger Verteilungen und die zu einer stetigen
Verteilungsfunktion gehörige Dichtefunktion kennen. Wir übertragen das Konzept der
Maßzahlen von den diskreten auf die stetigen Verteilungen. Zudem werden einige
wichtige Verteilungsmodelle vorgestellt.
Stetige Verteilungsfunktionen
Die Notwendigkeit stetiger Verteilungsfunktionen
Bei Zufallsvariablen, die viele verschiedene Realisationsmöglichkeiten haben und auch
nicht-ganzzahlige oder negative Werte annehmen können, ist es schwieriger, ein
theoretisches Verteilungsmodell zu bestimmen. Zudem ist es nicht opportun, für jede
vorgegebene Messgenauigkeit ein besonderes Modell in Betracht zu ziehen. Als
Ausweg bietet sich an, die durch eine stetige Funktion zu approximieren.
Um dies zu illustrieren, betrachten wir ein Beispiel. In 15 verschiedenen Geschäften
ermittelte man Preise von 100g Kaffee (in Pence). Auch wenn die Preise ganzzahlige
Werte sind, ist ein stetiges Verteilungsmodell einem diskreten vorzuziehen. Denn es
gibt relativ wenige gleich große Werte. Bei einer Erweiterung der Erhebung würden wir
Page 1
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
eher erwarten, dass es noch mehr unterschiedliche Werte gibt, als dass für einzelne
Preise sich größere Häufigkeiten einstellen.
Approximation der Binomialverteilung
Quelle: Eigene Berechnungen
Ein weiterer wichtiger Grund für die Verwendung stetiger Verteilungsfunktionen ist die
näherungsweise Berechnung von Wahrscheinlichkeiten mit den bereits eingeführten
Wahrscheinlichkeitsmodellen, etwa der Binomialverteilung oder der
Poisson-Verteilung. Dies ist nötig, da bei großem
die Binomialkoeffizienten nicht
mehr durch einfaches Ausmultiplizieren bestimmt werden können; die darzustellende
Zahl wird auch für leistungsstarke Computer zu groß. In der Abbildung wird eine
spezielle durch eine stetige Funktion überlagert. Diese ist mit Hilfe der Wahl der
Parameter dabei gerade so gewählt, dass sie "gut" durch die diskrete
Verteilungsfunktion verläuft. (Im Übrigen ist die angegebene Funktion nicht die beste,
die zur Approximation verwendet werden kann. Eine bessere wird später vorgestellt.)
Sie können die Approximation auch mit anderen Parametern überprüfen.
Labordatei öffnen ( a21.spf )
Quelle: Eigene Berechnungen
Eigenschaften stetiger Verteilungsfunktionen
Eine stetige Funktion, die als stetige Verteilungsfunktion
soll, muss offensichtlich drei Eigenschaften besitzen:
Page 2
verwendet werden
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Aus diesen Eigenschaften ergibt sich weiter:
Natürlich darf
schon an irgendeiner Stelle
den Wert eins annehmen. Allerdings ist
rechts von
null sein bzw. an einer Stelle
dann links von
ebenfalls null und
konstant eins.
Wahrscheinlichkeiten für Intervalle ergeben sich bei stetigen Verteilungsfunktionen
gemäß
;
dabei ist
vorausgesetzt.
Die Wahrscheinlichkeit, dass die Zufallsvariable
, für die eine stetige
Verteilungsfunktion als Modell sinnvoll ist, einen speziellen Wert
annimmt, ist null:
.
Hier müssen wir uns klarmachen, dass ein spezieller Wert beispielsweise nicht einfach
bedeutet. Vielmehr ist dies die 10 mit allen Nachkommastellen:
Somit wird einsichtig, dass auch bei langen
Versuchsserien ein solches Ereignis
eine verschwindende relative
Häufigkeit aufweisen wird; die statistische Wahrscheinlichkeit ist null.
Beispiel: Bogenschütze
Wir betrachten einen ungeübten Bogenschützen, der auf eine kreisrunde Zielscheibe
vom Radius 1 m schießt. (Der Sicherheit halber sei die Zielscheibe an einem
Scheunentor befestigt.) Nur Versuche, bei denen der Schütze die Zielscheibe trifft,
werden berücksichtigt. Wegen der mangelnden Übung können wir davon ausgehen,
dass jedes Flächenstück der Zielscheibe mit einer Wahrscheinlichkeit getroffen wird,
die ihrem Flächeninhalt entspricht.
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Titel : Zielscheibe
Quelle: Eigene Berechnungen
Nun interessieren wir uns für die Zufallsvariable
= "Abstand zum Mittelpunkt der
Scheibe". Mit den Voraussetzungen gilt:
Damit haben wir aber schon die Verteilungsfunktion von
:
Die Wahrscheinlichkeit, in den mittleren Teil der Zielscheibe zu treffen, so dass der
Abstand höchstens 0.5 m beträgt, ist also 0.52 =0.25.
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Quantile
Bei stetigen Verteilungen sind die Quantile i.d.R. eindeutig durch die Inverse der
Verteilungsfunktion gegeben:
In vielen Anwendungen sind Intervalle von Interesse, die durch Paare von Quantilen
festgelegt werden, welche jeweils die gleiche Wahrscheinlichkeitsmasse links und
rechts abspalten.
Intervalle
, bei denen die Zufallsvariable
mit gleicher
Wahrscheinlichkeit
einen Wert links von der Untergrenze wie rechts von der
Obergrenze annimmt, werden als zentrale
-Schwankungsintervalle
bezeichnet.
Beispiel: Bogenschütze (Fortsetzung)
Für die Zielgenauigkeit
des ungeübten Bogenschützen gilt die
Verteilungsfunktion
Das zentrale
-Schwankungsintervall erhalten wir dadurch, dass das
0.1-Quantil und das 0.9-Quantil bestimmt wird:
Das zentrale Schwankungsintervall ist daher [0.316,0.945].
Dichtefunktion
Wie wir gesehen haben, gilt für jedes einzelne
:
Daher ist bei
stetigen Verteilungen eine nicht sinnvoll. Vielmehr ist ein theoretisches Gegenstück
zum von Bedeutung. Beim Histogramm stellt der Flächeninhalt unter der
Häufigkeitsdichte ein Maß für die relative Häufigkeit dar. Im theoretischen Fall ist der
Flächeninhalt unter einer Dichtefunktion dann gleich der Wahrscheinlichkeit, dass die
Zufallsvariable einen Wert aus dem entsprechenden Intervall annimmt.
Flächeninhalte werden mathematisch durch Integrale dargestellt. Damit ist:
Page 5
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Mit der Verteilungsfunktion ausgedrückt ist die Wahrscheinlichkeit
gleich
. Beides zusammen ergibt:
Die Wahrscheinlichkeit
wird durch den Inhalt der gesamten Fläche unter
der Funktion
liegt, dargestellt. Formal ist dies das Integral von
, die links von
.
Die zu einer stetigen Verteilungsfunktion
Funktion
, für die gilt:
Quelle: Eigene Berechnungen
Page 6
gehörige Dichtefunktion ist die
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Auf dieser Laborseite ( b29.spf ) haben Sie die Möglichkeit, die Beziehung zwischen
Dichte- und Verteilungsfunktion selber noch weiter zu erkunden.
Zwischen Dichte- und Verteilungsfunktion gilt die Beziehung, die in der Mathematik
als Hauptsatz der Differential- und Integralrechnung bezeichnet wird:
Damit eine Funktion
eine Dichte sein kann, muss sie die beiden folgenden
Eigenschaften aufweisen:
Beispiel: Monatsrenditen
Im Management von Geldanlagen ist die zukünftige Kursentwicklung von besonderem
Interesse. Die Rendite der Geldanlage über einen in der Zukunft liegenden
Planungshorizont wird als zufällige Größe aufgefasst. Auf Grund der Komplexität der
Einflussgrößen ist die Vorhersage von Kursentwicklungen äußerst problematisch. Um
dennoch Aussagen treffen zu können, werden für die Entwicklung Modelle aufgestellt.
Für eine spezielle Monatsrendite wird aufgrund der Erfahrung eine symmetrische
Dreiecksverteilung unterstellt. Da sich die Renditen um den Wert Eins zentrierten, wird
für die Dichte der Ansatz
gewählt. Hier ist die Wahrscheinlichkeit, dass die zukünftige Monatsrendite zwischen
1,5% und 3,5% liegt:
Beispiel: Bogenschütze - Fortsetzung
Für die Treffergenauigkeit des ungeübten Bogenschützen haben wir die folgende
Page 7
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Verteilungsfunktion erhalten:
Mit der Beziehung bekommen wir die Dichte:
Maßzahlen stetiger Verteilungen
Wir haben gesehen, dass für Kaffeepreise ein stetiges Verteilungsmodell sinnvoll ist, da
wir bei weiteren Beobachtungen eher erwarten würden, dass es noch mehr
unterschiedliche Werte gibt. Die Frage, welchen Preis wir denn erwarten würden, ist
wie bei den diskreten Verteilungen die Frage nach dem .
Bei diesen ist er durch gegeben. Bei stetigen Verteilungen haben wir nun keine
(sinnvolle) Wahrscheinlichkeitsfunktion. Wahrscheinlichkeiten werden vielmehr durch
Flächeninhalte unter der Dichtefunktion angegeben. Daher ist eine Annäherung an den
Erwartungswert bei diskreten Verteilungen:
Dabei ist durch die eine Klasseneinteilung der x-Achse mit der Klassenbreite
gegeben. Je feiner diese
Klasseneinteilung wird, desto besser ist sicherlich die Annäherung. Im Grenzübergang
sind wir damit aber beim Integral.
Der Erwartungswert einer stetigen Verteilung ist definiert durch:
Entsprechend erhalten wir die Varianz:
Die Varianz einer stetigen Verteilung ist definiert durch:
Die Eigenschaften dieser Maßzahlen sind die gleichen, die für diskrete Verteilungen
gelten:
Beispiel: Monatsrenditen - Fortsetzung
Im Management von Geldanlagen haben wir eine Dreiecksverteilung für die
zukünftige Kursentwicklung unterstellt. Das Zentrum liegt bei 1, der Bereich geht
symmetrisch zu 1 von -2 bis 4.
Die erwartete Rendite beträgt 1; der Erwartungswert stimmt bei symmetrischen
Verteilungen mit dem Symmetriepunkt überein. Die Varianz beträgt
Dies ergibt sich mit
wegen
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Für einen ungeübten Bogenschützen ist ein sinnvolles Modell für die Entfernung vom
Zielscheibenmittelpunkt die Dichte Bestimmen Sie den Erwartungswert und die
Varianz.
Link zur Lösung (
: bc9.pdf )
Stetige Gleichverteilung
Verteilungsfunktion und Dichte
Das einfachste Beispiel einer stetigen Verteilung ist die stetige Gleichverteilung über
dem Intervall
. Die zugehörige Verteilungsfunktion ist
Eine Zufallsvariable
mit dieser Verteilungsfunktion heißt
gleichverteilt über dem Intervall
Für eine Zufallsvariable ergibt sich die Dichtefunktion:
Maßzahlen
Die Maßzahlen für die Lage und Streuung sind:
Anwendung
Das Grundmodell für viele computermäßig erzeugte (Pseudo-) Zufallszahlen bildet
gerade die -Verteilung. Der Hintergrund besteht darin, dass eine einfache
Transformation aus einer gleichverteilten Zufallszahl solche mit einer anderen
Verteilungsfunktion hervorbringt. Die so genannte Inversionsmethode nutzt die Inverse
der stetigen Verteilungsfunktion
und transformiert die
gleichverteilten Zufallszahlen gemäß .
Beispiel: Beispiel zur Inversionsmethode (Monatsrenditen)
Wir setzen das Beispiel zu den Monatsrenditen fort. Als Modell wurde die Dichte
gewählt. Die zugehörige Verteilungsfunktion ist
Mit der Umkehrfunktion von ,
erhalten wir daraufhin eine Zufallsstichprobe gemäß
Erzeugung von gleichverteilten Zufallszahlen
Transformation der
.
in mittels .
Um zu verdeutlichen, dass dieses Vorgehen korrekt ist, stellen wir ein Histogramm aus
10000 Zufallszahlen der theoretischen Dichte gegenüber.
Labordatei öffnen ( c44.spf )
Page 9
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Exponentialverteilung
Es wird wieder die Ausgangssituation der betrachtet. Allerdings sei das Augenmerk
jetzt auf die Zeit gerichtet, die verstreicht, bis zum ersten Mal ein Vorkommnis eintritt.
Folgt die Anzahl der Vorkommnisse einem Poisson-Prozess mit der Rate (, so ist die
Wahrscheinlichkeit, dass im Intervall kein Vorkommnis passiert, gleich .
Diese Wahrscheinlichkeit ist offensichtlich gleich der, dass mindestens bis zum
Zeitpunkt t auf ein Vorkommnis gewartet werden muss. Also gilt
Die zugehörige Verteilung heißt Exponentialverteilung.
Eine Zufallsvariable mit der Verteilungsfunktion heißt exponentialverteilt mit dem
Parameter ,
Die Exponentialverteilung hat die Dichte
Für die Maßzahlen gilt:
Applet Exponentialverteilung (c8e.jar)
Beispiel: Strecke bis zum ersten "a"
Sprachwissenschaftler interessieren sich unter anderem für die Häufigkeiten einzelner
Buchstaben in verschiedenen Texten. Auch der Abstand zwischen dem Auftreten des
jeweils gleichen Buchstabens ist von Interesse. Der Abstand zwischen zwei gleichen
Buchstaben kann dabei als "Warten" auf den nächsten gleichen Buchstaben interpretiert
werden. Somit ist zu vermuten, dass der Abstand ebenfalls durch eine
Exponentialverteilung modelliert werden kann.
Unter diesem Vorzeichen wurde in dem Buch "The Sexual Wilderness" von Vance
Packard jeweils die Länge von Zeilenanfang (=
) bis zum ersten Auftreten des
Buchstabens "a" ausgemessen. Kam in einer Zeile kein "a" vor, so wurde die gesamte
Zeilenlänge (3.3 inch) der Strecke der folgenden Zeile hinzuaddiert. Insgesamt erhielt
man 1980 Werte. (Aus: Griffin, Smith und Watts (1982): Deriving the Normal and
Exponential Densities Using EDA Techniques; The American Statistician, 36, 373 377.)
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
0.5
0.5
0.6
0.6
0.7
0.7
0.8
Page 10
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
0.8
0.9
0.9
1.0
1.0
1.1
1.1
1.2
1.2
1.3
1.3
1.4
1.4
1.5
1.5
1.6
1.6
1.7
1.7
1.8
1.8
1.9
1.9
2.0
2.0
2.5
2.5
3.0
3.0
3.5
3.5
4.0
4.0
4.5
4.5
5.0
5.0
5.5
5.5
6.0
6.0
6.5
Page 11
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
Quelle: Eigene Berechnungen
Überprüfung der Exponentialverteilung
Zur Überprüfung der Frage, ob die Exponentialverteilung ein angemessenes Modell für
einen Datensatz ist, ist ein Quantildiagramm, kurz QQ-Diagramm, geeignet. In dem
Akronym kommt doppelt vor, weil die empirischen gegen die zugehörigen
theoretischen Quantile abgetragen werden. Sofern die Verteilung passt, sollten die
empirischen und die theoretischen Quantile in etwa übereinstimmen.
Die geordneten beobachteten Werte des Datensatzes sind die empirischen Quantile.
Diesen werden die entsprechenden theoretischen -Quantile gegenübergestellt.
"Entsprechend" bedeutet dabei . Eine Verbesserung ergibt sich noch durch eine
Stetigkeitskorrektur, so dass genommen wird.
Die theoretischen -Quantile erhalten wir aus
.
Für das QQ-Diagramm werden wie ausgeführt die theoretischen Quantile für bestimmt.
ist nun i.d.R. nicht bekannt; dies ist aber auch nicht nötig. Wir stellen die einfach in
Abhängigkeit von den dar. Damit sollten die Punkte eine Gerade mit einer von 45°
abweichenden Steigung durch den Nullpunkt bilden. Wichtig ist nur, ob die Punkte eine
systematische Abweichung vom erwarteten linearen Verhalten aufweisen.
Beispiel: Zusammenbrüche
In einem Experiment wurde bei 19 Versuchwiederholungen jeweils die Zeit bis zum
Zusammenbruch der isolierenden Wirkung einer Flüssigkeit ermittelt. Die Daten
stammen aus Nelson, W. (1982) Applied Life Data Analysis; New York: Wiley. Das
QQ-Diagramm hat die folgende Gestalt:
Quelle: Eigene Berechnungen
Die Daten und die Befehle zur Erstellung des QQ-Diagramms finden Sie auch auf
folgender Laborseite ( e9e.spf ) .
Die Punkte bilden keine gute lineare Form. Das hängt mit dem recht geringen Umfang
des Datensatzes zusammen. Erst bei größeren Datenumfängen ist die "ruhige"
Linienform deutlich. Entscheidend ist hier, dass keine systematisch von einer Geraden
abweichenden Struktur zu erkennen ist. Somit bildet die Exponentialverteilung für diese
Daten ein durchaus akzeptables Modell.
Professor T. Lewis beobachtete in den späten Abendstunden Zeiten zwischen je zwei
aufeinander folgenden Fahrzeugen an der M345. (Aus: Lewis, T. and the M345 Course
Team (1986) M345 Statistical Methods, Unit 2: Basic Methods: Testing and Estimation,
Milton Keynes: The Open University, 16)
Ist die Exponentialverteilung hierfür ein passendes Modell?
Labordatei öffnen ( eaa.zmpf )
Die Laplace-Verteilung
Einer der frühen Versuche, ein geeignetes Verteilungsmodell für Messfehler zu finden,
Page 12
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
führte Laplace 1774 zu der nach ihm benannten Verteilung.
Die Dichtefunktion der Laplace-Verteilung, die ihr Zentrum bei einem Parameterwert
hat, lautet:
.
Dabei ist ein Skalenparameter.
Die Laplace-Verteilung erhalten wir auch als Differenz zweier unabhängiger
exponentialverteilter Zufallsvariablen, die beide den gleichen Parameter haben.
Der Erwartungswert ist , die Varianz beträgt .
Tagesrenditen von Aktien sind i.d.R. symmetrisch um Null verteilt. Sie enthalten oft
extreme Werte; daher ist zu ihrer Modellierung eine Laplace-Verteilung geeignet.
Beispielsweise lassen sich die Renditen der Aktie einer Rückversicherung (=) durch
eine Laplace-Verteilung mit den Parametern und approximieren.
a) Wie groß ist demnach die Wahrscheinlichkeit, eine Rendite größer als 0.04 zu
erzielen?
b) Geben Sie ferner ein zentrales Schwankungsintervall an, in dem mit einer
Wahrscheinlichkeit von 0.99 die Tagesrenditen liegen.
Link zur Lösung (
: eea.pdf )
Die Pareto-Verteilung
Die Pareto-Verteilung ist ein Beispiel für eine stetige Verteilung, die aus einfachen
Annahmen ableitbar ist. Paretos Einkommensgesetz, das er aus empirischen
Untersuchungen gewonnen hat, sagt: Die Verteilung des Einkommens von Personen mit
einem Mindesteinkommen kann beschrieben werden durch die Beziehung:
Dabei ist die Anzahl der Personen, deren Einkommen mindestens Geldeinheiten beträgt,
und sind populationsspezifische Konstanten.
Quelle:
Dies führt für alle Einkommen , die größer oder gleich sind, sofort zu
Somit ist die zugehörige Verteilung durch die Verteilungsfunktion
gegeben.
Erwartungswert und Varianz sind:
Für die Anpassung der Verteilung an empirische Daten ist es hilfreich, die
Verteilungsfunktion umzustellen und zu Logarithmen überzugehen:
Diese lineare Beziehung zwischen und sollte sich in etwa auch zeigen, wenn für die
theoretische Verteilungsfunktion die empirische an den Stellen eingesetzt wird. Genauer
betrachten wir (wieder mit der Stetigkeitskorrektur) das Streudiagramm der Punkte
Liegen die Punkte in etwa auf einer Geraden, so können die empirischen Daten gut
Page 13
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
durch eine Pareto-Verteilung approximiert werden.
Beispiel: Haftpflichtschäden
Versicherungen benutzen für eine Risikoabschätzung Informationen der Vergangenheit.
Es ist aber stets schwierig, extreme Schäden abzuschätzen. Daher werden
Wahrscheinlichkeitsverteilungen gesucht, die solche Daten gut beschreiben. Damit wird
dann die Kalkulation durchgeführt.
Für Haftpflichtschäden über 100000 SF einer Schweizer Autoversicherung liegen die
folgenden Daten vor:
103765
109168
112341
113800
114791
115731
118264
123464
127611
133504
142821
152270
163491
164968
168915
169346
172668
191954
193102
208522
209070
219111
243910
280302
313898
330461
418074
516218
595310
742198
791874
822787
1074499
(Aus Klüppelberg, C. and Villasenor, J. A. (1993) Estimation of distribution tails -- A
semiparametric approach, Bl. Dtsch. Ges. Versicherungsmath. 21, No.2, 213-235.)
Hier ist die Pareto-Verteilung ein nahe liegender Kandidat für ein Verteilungsmodell,
handelt es sich doch um Schäden, die eine gewisse Höhe überschreiten.
Dies führt zu dem folgenden QQ-Diagramm, bei dem die Schadenshöhen jeweils um
100000 verringert wurden.
Labordatei öffnen ( I1001.spf )
Quelle: Eigene Berechnungen
Offensichtlich gibt es eine systematische Abweichung der Punkte von der
Ausgleichsgeraden. Dies deutet darauf hin, dass die Pareto-Verteilung hier kein
adäquates Modell darstellt.
Bestimmen Sie die Dichtefunktion der Pareto-Verteilung und stellen Sie sie grafisch
dar. Wie verändert sich die Dichte, wenn der Parameter verändert wird?
Page 14
(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle
: I1014.pdf )
Exponentialverteilung
ErklärungGleichverteilung
ErklärungLaplace-Verteilung
ErklärungPareto-Verteilung
ErklärungQQ-Diagramm
ErklärungQuantildiagramm
Erklärungstetige Verteilungsfunktion
Erklärung
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 15
Herunterladen