Die Normalverteilung

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Die Normalverteilung
Worum geht es in diesem Modul?
Ist der Euro fair?
Approximation der Binomialverteilung
Dichte und Verteilungsfunktion
Standardnormalverteilung und Lineartransformation
Quantile
Quantildiagramme
Grenzwertsatz von de Moivre und Laplace
Ist der Euro fair? - Fortsetzung
Der zentrale Grenzwertsatz
Die logarithmische Normalverteilung
Die bivariate Normalverteilung
Worum geht es in diesem Modul?
Wenn bei einer Binomialverteilung die Anzahl der Versuchsdurchführungen sehr groß
ist, gibt es Schwierigkeiten bei der Berechnung der Wahrscheinlichkeiten. Hierfür bietet
die Normalverteilung eine Approximation. Sie ist aber auch zur Modellierung von
Messdaten ein oft herangezogenes Modell. Wegen ihrer zentralen Bedeutung wird die
Normalverteilung in einem eigenen Lernmodul behandelt.
Nach der Darstellung der Approximation der Binomialverteilung durch die
Normalverteilung werden die wichtigsten Eigenschaften der Normalverteilung
betrachtet. Über die Approximation der Binomialverteilung hinaus lassen sich die
Verteilungen von Summen von Zufallsvariablen durch die Normalverteilung annähern.
Eine besondere Variante ergibt sich mit der logarithmischen Normalverteilung. Diese ist
von Bedeutung, wenn einzelne Faktoren multiplikativ zusammenwirken.
Ist der Euro fair?
Im Zusammenhang mit der Einführung des Euro als gemeinsame europäische Währung
berichteten polnische Mathematiker, dass die 1-Euro-Münze nicht fair sei. Die
Wahrscheinlichkeiten seien verschieden, dass sie auf die Zahl- bzw. auf die Symbolseite
falle. Muss daraufhin auf den Münzwurf zur objektiven, fairen Entscheidungsfindung
verzichtet werden? (Beispielsweise beim Auslosen der Seiten beim Fußball.)
Page 1
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Quelle: Eigenproduktion
Im Sinne der statistischen Wahrscheinlichkeit stabilisiert sich der Anteil der Zahlseiten
bei dem wahren Wert, der Chance für das Eintreffen des Ereignisses "Die Zahlseite
zeigt nach oben". Nun stellt sich die Frage, ob die von den Mathematikern festgestellte
Ungleichheit der Chancen für die beiden Seiten relevant ist, d.h. ob wir sie tatsächlich
bemerken können, oder ob sie so gering ist, dass wir die Ungleichheit getrost vergessen
können.
Eine erste Einschätzung erlaubt die . Da die Zufallsvariable
Zahlseiten" bei
= "Anzahl der
Würfen binomialverteilt ist mit den Parametern
und
, gilt:
Somit gilt gemäß der Tschebyschev-Ungleichung:
Wählen wir
, so ist die Mindestwahrscheinlichkeit
Angenommen, der Euro sei nicht fair und habe eine Zahl-Wahrscheinlichkeit von
Dann erhalten wir bei 100000 Würfen:
Page 2
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Selbst bei einer Serie dieser Länge kann es uns gut passieren, dass der beobachtete
Anteil 0.5 oder sogar etwas größer ausfallen wird, obwohl
ist.
Nun ist die Mindestwahrscheinlichkeit, welche die Tschebyschev-Ungleichung angibt,
eine untere Schranke. Im Einzelfall kann sie sehr grob sein. Daher ist eine genauere
Berechnung über die Binomialverteilung wünschenswert.
Approximation der Binomialverteilung
Entsprechend der Problemstellung bzgl. der Fairness des Euro sei
mit den Parametern
und
binomialverteilt
,
Jede näherungsweise Bestimmung von Wahrscheinlichkeiten steht vor dem Problem,
dass mit wachsendem
der Wertebereich entsprechend breiter wird. Das können Sie
mit dem
Applet Binomialverteilung (a6c.jar)
nachvollziehen.
Daher ist es für eine Näherungsformel günstig, von einer bzw. von den standardisierten
Realisationsmöglichkeiten auszugehen.
Sei
binomialverteilt mit den Parametern
standardisierte
-Wert ist
Binomialwahrscheinlichkeiten
jedem festgelegten Bereich
Die Approximationsgüte hängt von
und
,
. Für große
Der
lassen sich die
für standardisierte Werte aus
approximieren gemäß:
ab. Als Faustregel gilt: Für
erhalten wir brauchbare Werte.
Zur Beantwortung der Euro-Frage reicht diese Approximation allerdings nicht aus.
Zwar können wir die einzelnen Binomialwahrscheinlichkeiten einfacher berechnen,
jedoch haben wir keine einfache Formel für die Wahrscheinlichkeit, dass die
Zufallsvariable einen Wert aus einem Intervall annimmt. Daher greifen wir die
Fragestellung weiter unten wieder auf.
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Welches sind die größten Abweichungen der Binomialwahrscheinlichkeiten von den
entsprechenden approximierenden Werten? Bestimmen Sie diese im Statistik-Labor für
und .
Labordatei öffnen ( ac4.mpf )
Dichte und Verteilungsfunktion
Dichte
Bei der Funktion , die sich bei der Binomialapproximation ergeben hat, ist
; und sind Erwartungswert und Varianz der zugrunde
liegenden Binomialverteilung. Werden diese durch die allgemeinen Symbole
Erwartungswert und
für die Varianz ersetzt, so erhalten wir die
für den
Normalverteilungsdichte.
Eine Zufallsvariable , deren Dichtefunktion die Gestalt hat, heißt normalverteilt mit den
Parametern und . Dafür wird kurz
geschrieben.
ist tatsächlich eine Dichtefunktion: Es gilt
und
.
Die Normalverteilung wird auch nach dem Mathematiker Carl Friedrich Gauß, der sie
als Fehlerverteilung einführte, als Gauß-Verteilung bezeichnet
Quelle: Stigler, S. M. (1986): The History of Statistics; Harvard: Belknap
Entsprechend der Einführung der Normalverteilungsdichte gilt:
In diesem
Applet Normalverteilung (b16.jar)
ist die Normalverteilungsdichte, auch Gaußsche Glockenkurve genannt, angegeben;
daran lässt sich die Auswirkung der Parameter studieren.
Verteilungsfunktion
Wie bei jeder stetigen Verteilung hängt die Verteilungsfunktion mit der Dichte
zusammen gemäß .
lässt sich nicht in geschlossener Form angeben. Formal können über sie
Wahrscheinlichkeiten für Intervalle bestimmt werden:
Da eine stetige Funktion ist, spielt es keine Rolle, ob die Intervallgrenzen jeweils
eingeschlossen sind oder nicht.
Eine Reifenfirma untersucht die Lebensdauer eines neu entwickelten Reifens. Dabei
zeigt sich, dass die ermittelte Laufleistung der Reifen gut durch eine Normalverteilung
mit den Parametern km und km angenähert werden kann.
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
a) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen
höchstens 48000 km hält?
b) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen
mehr als 28000 km hält?
c) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen
länger als 30000 km und weniger als 44000 km hält?
Beantworten Sie die Fragen unter Zuhilfenahme des Statistik-Labors.
Labordatei öffnen ( b59.mpf )
Ein Unternehmen hat festgestellt, dass die Anzahl der Tage zwischen der Ausstellung
einer Rechnung und ihrer Bezahlung durch den Kunden angenähert einer
Normalverteilung folgt mit dem Erwartungswert und der Standardabweichung . Hierbei
ist die vom Unternehmen gewährte Zahlungsfrist.
a)Wie groß ist die Wahrscheinlichkeit dafür, dass eine Rechnung spätestens 60 Tage
nach Ausstellung beglichen wird?
b) Welcher Anteil der Rechnungen wird erst nach 30 Tagen bezahlt?
c) Welcher Anteil der Rechnungen wird in dem Zeitintervall von 15 bis 20 Tagen
bezahlt ?
Beantworten Sie die Fragen unter Zuhilfenahme des Statistik-Labors.
Labordatei öffnen ( b75.mpf )
Standardnormalverteilung und Lineartransformation
Die Standardnormalverteilung ist die Normalverteilung mit dem Erwartungswert null
und der Varianz eins, und . Von einer beliebigen Normalverteilung gelangen wir durch
zur Standardnormalverteilung:
Umgekehrt gilt natürlich auch:
Aus dieser Eigenschaft ergibt sich unmittelbar, dass jede Lineartransformation einer
normalverteilten Zufallsvariablen wieder normalverteilt ist, sofern der Faktor von null
verschieden ist:
Die zur Standardnormalverteilung gehörige Verteilungsfunktion wird mit (sprich: Fi
von z) bezeichnet, die Dichte mit (sprich: klein Fi von z). Das
Applet Standard-Normalverteilung (ba7.jar)
illustriert beide Funktionen.
spielte in der älteren Statistikliteratur eine wesentliche Rolle. Erlaubte doch der oben
angegebene Zusammenhang zwischen einer -Verteilung und der
Standardnormalverteilung, sich auf eine einzige Tabelle von Wahrscheinlichkeiten zu
beschränken. Noch jetzt macht es Sinn, zur Verdeutlichung der Parameter
Wahrscheinlichkeiten mit Hilfe der Standardnormalverteilung anzugeben:
Quantile
Page 5
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Die -Quantile einer -Verteilung mit der Verteilungsfunktion sind
Sie stehen im Zusammenhang mit den Quantilen der Standardnormalverteilung:
.
Im
Applet Quantile der Normalverteilung (bea.jar)
kann die Bestimmung der Quantile zu vorgegebenen Wahrscheinlichkeiten untersucht
werden.
Die Quantile sind symmetrisch um den Erwartungswert:
Zentrale Schwankungsintervalle
Wir haben über die Eigenschaft eingeführt, dass die Zufallsvariable mit gleicher
Wahrscheinlichkeit einen Wert links von der Untergrenze wie rechts von der
Obergrenze annimmt. Da die Normalverteilung symmetrisch um den Erwartungswert
ist, gilt hier .
Die zentralen Schwankungsintervalle haben folglich die Form . Die Konstante wird
dabei meist als Vielfaches der Standardabweichung angegeben.
Wir sprechen dann von einem -fachen zentralen Schwankungsintervall:
Für die ersten ganzzahligen Werte von k sind die Wahrscheinlichkeiten:
1
68.3%
2
95.4%
3
99.8%
Nach der so genannten -Regel liegen bei einer Normalverteilung praktisch alle
Beobachtungen innerhalb des dreifachen zentralen Schwankungsintervalls.
Eine Reifenfirma untersucht die Lebensdauer eines neu entwickelten Reifens. Dabei
zeigt sich, dass die ermittelte Laufleistung der Reifen gut durch eine Normalverteilung
mit den Parametern km und km angenähert werden kann.
d) Welche Laufleistung wird von 95 % der Reifen nicht überschritten?
e) Welche Laufleistung wird von 90 % der Reifen nicht unterschritten?
f) Berechnen Sie das zentrale Schwankungsintervall, in das 95% der Reifen fallen.
g) Die Firma ist in der Lage, den Herstellungsprozess der Reifen so zu steuern, dass km
konstant bleibt, aber die Standardabweichung veränderbar ist. Bei welcher
Standardabweichung muss der Produktionsprozess ablaufen, wenn die Firma
garantieren will, dass durchschnittlich nur 2% der Reifen diese Mindestlaufleistung von
30000 km unterschreiten?
Beantworten Sie die Fragen d)-f) unter Zuhilfenahme des Statistik-Labors.
Page 6
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Labordatei öffnen ( c86.mpf )
Und hier ist ein Link zur Lösung von Teil g) (
: c8a.pdf ) .
Ein Unternehmen hat festgestellt, dass die Anzahl der Tage zwischen der Ausstellung
einer Rechnung und ihrer Bezahlung durch den Kunden angenähert einer
Normalverteilung folgt mit dem Erwartungswert und der Standardabweichung . Hierbei
ist die vom Unternehmen gewährte Zahlungsfrist.
d)Welcher Zeitraum zur Bezahlung einer Rechnung wird von 20% der Kunden nicht
eingehalten?
e) Wie angegeben, gewährt das Unternehmen eine Zahlungsfrist von Tagen. Wenn eine
Rechnung nach 40 Tagen noch nicht bezahlt worden ist, wird eine erste Mahnung
abgeschickt. Wie groß müsste die gewährte Zahlungsfrist festgesetzt werden, wenn der
Anteil der anzumahnenden Rechnungen nur noch 5% betragen soll? (bei gleichem )
Beantworten Sie die Frage d) unter Zuhilfenahme des Statistik-Labors.
Labordatei öffnen ( cb0.mpf )
Und hier ist ein Link zur Lösung von Teil e) (
: cb4.pdf ) .
Quantildiagramme
Die Normalverteilung ist die wohl wichtigste Verteilung für die statistische
Modellierung von Datensätzen. Erfahrungsgemäß gehorchen Messfehler häufig
zumindest approximativ einer Normalverteilung. Dies wird dadurch erklärt, dass bei der
Entstehung von Messfehlern eine Vielzahl von Ursachen zusammenwirken. Somit wird
diese Verteilung bei vielen Fehlerbetrachtungen zu Grunde gelegt.
Um die Eignung der Normalverteilung für die Beschreibung eines Datensatzes zu
untersuchen, sind Quantildiagramme besonders günstig. Hier werden die empirischen
Quantile in Abhängigkeit von den theoretischen aufgetragen. Dabei wählen wir für die
empirischen Quantile die Anteile v/n, v=1,...,n. Damit sind die geordneten
Beobachtungen gleich den zugehörigen Quantilen.
Aufgrund des Zusammenhangs zwischen den Quantilen einer beliebigen
Normalverteilung und denen der Standardnormalverteilung reicht es, für die
theoretischen Quantile die Quantile der Standardnormalverteilung zu nehmen. Die
Punkte sollten dann einfach um eine Gerade streuen und keine Systematik bei einer
Abweichung aufweisen. Für die den empirischen Quantilen entsprechenden
theoretischen Quantile nehmen wir aber nicht die v/n-Quantile, sondern die
(v-0.5)/n-Quantile (Stetigkeitskorrektur).
Beispiel: Körpertemperatur
In einem Artikel in der Zeitschrift "Journal of the American Medical Association" mit
dem Titel "A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body
Temperature, and Other Legacies of Carl Reinhold August Wunderlich" von
Mackowiak, Wasserman, and Levine (1992) geht es um die Frage, ob die mittlere
Körpertemperatur tatsächlich 98.6 °F, bzw. 37.0 °C beträgt. Aus den dort
veröffentlichten Abbildungen sind die Daten der Körpertemperatur von Männern
rekonstruiert. Das zugehörige QQ-Diagramm zeigt, dass die Körpertemperatur als
Page 7
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
normalverteilt angesehen werden kann.
Quelle: Eigene Berechnungen
Labordatei öffnen ( ccb.spf )
Mr. McConway ist Bibliothekar in einer umfangreichen Bibliothek. Er maß bei 100
zufällig ausgewählten Büchern die Dicke (in mm). (Aus: Hand, D.J., Daly, F., Lunn,
A.D., McConway, K.J., and Ostrowski, E. (1994) A Handbook of small data sets,
Chapman & Hall: London.)
Ist die Dicke der Bücher in dieser Bibliothek normalverteilt? Überprüfen Sie dies
mittels eines QQ-Diagramms. Wenn Sie zu der Einschätzung kommen sollten, dass eine
Normalverteilung kein gutes Modell ist, so beschreiben Sie, worin der Unterschied
liegt.
Labordatei öffnen ( cd5.mpf )
Grenzwertsatz von de Moivre und Laplace
Der eingangs formulierte Zusammenhang mit der Binomialverteilung gibt
Näherungswerte für die Einzelwahrscheinlichkeiten der Binomialverteilung. Wollen wir
Wahrscheinlichkeiten für vorgegebene Bereiche bestimmen, so sind wegen der
Diskretheit die einzelnen Werte aufzusummieren.
Bezeichnet die Normalverteilungsdichte mit den Parametern und , so gilt für eine
-verteilte Zufallsvariable :
Nun gibt es einen Trick, der das direkte Arbeiten mit der Normalverteilung, d.h. mit der
Verteilungsfunktion erlaubt.
Der Trick lässt sich am besten anhand des Stabdiagrammes der Binomialverteilung
verdeutlichen. Werden die Stäbe zu Blöcken mit der Breite Eins "verbreitert", so ist der
Flächeninhalt der Blöcke, Grundseite*Höhe, rechnerisch gerade gleich der Höhe. Also
entspricht die Fläche zwischen zwei Punkten auf der x-Achse der Summe der Stäbe, die
zu dazwischen liegenden Realisationsmöglichkeiten gehören. Dementsprechend gilt der
Grenzwertsatz von de Moivre und Laplace:
Quelle: Barth & Haller (1983): Stochastik, Erehnwirth Verlag München.
Betrachten Sie die Umsetzung des Tricks selbst mit Hilfe des
Applet Normal-Approximation der Binomialverteilung (d04.jar)
.
Die Approximation lässt sich verbessern, wenn berücksichtigt wird, dass die Fläche, die
zu den beiden Begrenzungspunkten gehört, ganz zu berücksichtigen ist, wenn die
Relation das Gleichheitszeichen mit einschließt. Beispielsweise ist, wenn wir wieder
beachten, dass für die Parameter und gilt:
Bei dem Integral wird die Fläche nur bis zur Obergrenze bestimmt; der letzte Summand
wird also nicht in der Form berücksichtigt, sondern nur zur Hälfte. Eine Verbesserung
erhalten wir daher mit der Stetigkeitskorrektur
Die Verbesserung kann mit dem obenstehenden Applet studiert werden.
Ist der Euro fair? - Fortsetzung
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Wir wollen die eingangs gestellte Frage wieder aufnehmen, ob die von polnischen
Mathematikern festgestellte Verfälschung der 1-Euro-Münze praktisch relevant ist.
Dazu bestimmen wir mit Hilfe der Normalapproximation für verschiedene und die
Länge der Intervalle so, dass die Wahrscheinlichkeiten
gleich 0.99 sind:
n\p
0.4500
0.4750
0.4900
0.4950
100
0.1719
0.1773
0.1803
0.1812
500
0.0768
0.0792
0.0806
0.0810
1000
0.0543
0.0560
0.0570
0.0573
10000
0.0171
0.0177
0.0180
0.0181
100000
0.0054
0.0056
0.0057
0.0057
Wir sehen, dass sich die Verhältnisse präziser darstellen als bei der
Tschebyschev-Ungleichung. Schon bei n=10000 ist die Chance 0.01, dass bei einem
tatsächlichen Wert von p=0.49 eine Beobachtung außerhalb von geschieht. (Hier ist zu
beachten, dass in der Tabelle die Längen der Intervalle angegeben sind!)
Insgesamt wird deutlich, dass eine sehr große Anzahl von Würfen mit einer
1-Euro-Münze notwendig ist, um kleinere Abweichungen von der 50:50-Chance der
Zahlseite zu erkennen. Auch wenn also keine Sicherheit erreicht werden kann, bleibt die
Überzeugung, dass der Euro weiterhin gut als "Entscheidungshilfe" in Zweifelsfällen
einsetzbar ist.
Der zentrale Grenzwertsatz
Der Grenzwertsatz von de Moivre und Laplace lässt sich zum zentralen Grenzwertsatz
erweitern. Dieser ist eines der bemerkenswertesten Ergebnisse der
Wahrscheinlichkeitsrechnung. In der hier angegebenen, einfachsten Form sagt er, dass
die Summe einer großen Anzahl von unabhängigen identisch verteilten Zufallsvariablen
approximativ normalverteilt ist. Zudem wird die Normalverteilungsapproximation
immer besser, je größer die Anzahl der Summanden ist.
Zentraler Grenzwertsatz
Die Verteilung der Summe von n unabhängigen, identisch verteilten Zufallsvariablen
mit Erwartungswert und Varianz ist für große approximativ gleich der
Normalverteilung. Genauer gilt
Page 9
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Aufgrund des zentralen Grenzwertsatzes können die Wahrscheinlichkeiten unter
Verwendung der Normalverteilung mit dem Erwartungswert und der Varianz bestimmt
werden. Dies gilt unabhängig von der Ausgangsverteilung der . Die Qualität der
Näherung hängt lediglich von der Anzahl der Summanden ab.
Beispiel: Länge von Piniennadeln
In der Tabelle ist die empirische Verteilung von 3000 Durchschnittswerten der Länge
von Piniennadeln angegeben. Jeder Durchschnittswert beruht auf jeweils 250
Messungen. Dieser Datensatz gibt uns die Möglichkeit, zu überprüfen, ob der
Stichprobenumfang von schon groß genug ist, um in diesem Fall die arithmetischen
Mittel als normalverteilt ansehen zu können. Mit einer Summe von identisch verteilten
Zufallsvariablen ist auch der Durchschnitt approximativ normalverteilt. Der Übergang
von der Summe zum Durchschnitt ist ja eine Lineartransformation,
3.08
3.09
0.033
3.09
3.10
0.033
3.10
3.11
0.200
3.11
3.12
0.733
3.12
3.13
1.467
3.13
3.14
2.900
3.14
3.15
5.000
3.15
3.16
7.533
3.16
3.17
10.767
3.17
3.18
13.400
3.18
3.19
12.933
3.19
3.20
12.900
3.20
3.21
13.000
3.21
3.22
7.967
3.22
3.23
5.433
3.23
3.24
3.267
3.24
3.25
1.267
3.25
3.26
0.867
3.26
3.27
0.233
3.27
3.28
0.067
Page 10
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
(Aus: Griffin, Smith und Watts (1982) Deriving the Normal and Exponential Densities
Using EDA Techniques, The American Statistician, 36, 373-377.)
Das arithmetische Mittel der durchschnittlichen Längen beträgt 3.186, die
Standardabweichung ist 0.02823. Die Abbildung des Histogramms mit der überlagerten
Dichte der -Verteilung zeigt eine gute Übereinstimmung.
Quelle: Eigene Berechnungen
Die logarithmische Normalverteilung
In vielen Anwendungen kann die interessierende Variable nur Werte annehmen, die
größer oder gleich null sind. Es resultiert dann oft eine rechtsschiefe Verteilung. Über
eine logarithmische Transformation können sehr extreme Werte aber an die übrigen
Daten herangezogen werden. Sehr kleine Werte werden dagegen durch diese
Transformation auseinander gezogen.
Hat eine Zufallsvariable eine Verteilung, so dass normalverteilt ist mit den Parametern
und , so heißt logarithmisch normalverteilt mit den Parametern und .
Zur Berechnung der Wahrscheinlichkeiten können wir die Beziehung zur
Normalverteilung ausnutzen. Speziell gilt für die Verteilungsfunktion an der Stelle :
Daraus ergibt sich auch die Dichtefunktion der logarithmischen Normalverteilung:
.
Es sind
.
Beispiel: Gesamtbezüge von Geschäftsführern
In der Frankfurter Allgemeinen Zeitung vom 30.März 2002 sind in einer Tabelle die
Gesamtbezüge von Geschäftsführern (Gehaltsklassen in tausend Euro) angegeben.
(Dabei ist zu beachten, dass das Histogramm nicht korrekt ist. Die scheinbare Erhöhung
der Häufigkeit in der Klasse von 200 bis 250 resultiert daraus, dass die Klassenbreite
hier doppelt so groß ist wie bei den niedrigeren Beträgen!) Aus den Prozentangaben
kann aber ein QQ-Diagramm erstellt werden. Dazu werden die Klassenobergrenzen als
empirische Quantile gewählt. Die theoretischen ergeben sich dann direkt aus , wobei der
kumulierte Anteil bis zu dieser Klasse ist.
Quelle: Eigene Berechnungen
Für das QQ-Diagramm wurden die Gehaltsangaben logarithmiert. Die logarithmierten
Werte streuen zufrieden stellend um eine Gerade. Die Verteilung der logarithmierten
Gesamtbezüge lässt sich offensichtlich gut durch eine Normalverteilung modellieren.
Die Gesamtbezüge können als logarithmisch normalverteilt angesehen werden.
Die bivariate Normalverteilung
Eine der wichtigen Eigenschaften, die Galton, ein Enkel Darwins, bei seinen historisch
bedeutsamen Untersuchungen über den Zusammenhang der Größe von Vätern (=) und
Söhnen (=) entdeckte, war, dass die zugehörigen Streudiagramme eine ellipsenförmige
Page 11
(c) Projekt Neue Statistik 2003 - Lernmodul: Die Normalverteilung
Gestalt aufwiesen. Zudem konnten die Größen der Väter und die der Söhne als
normalverteilt angesehen werden.
Die bivariate Normalverteilung formalisiert diese Erkenntnisse: Die Randverteilungen
sind Normalverteilungen und die gemeinsame Struktur ist durch eine Ellipsenform
gegeben. Die Ausrichtung der Ellipse wird durch einen Parameter gesteuert.
Die Dichte der bivariaten Normalverteilung lautet ausformuliert
Die Parameter sind die Erwartungswerte von und und die die Varianzen. ist der
Korrelationskoeffizient; damit ist .
Die Abbildung zeigt die bei (0,0) zentrierte bivariate Dichte.
Quelle: Eigene Berechnungen
Die Darstellung der bivariaten Dichte als so genannten Contour-Plot gibt Kurven
konstanter Dichte für verschiedene Werte von an. Hier zeigt sich die Ellipsengestalt
ganz deutlich.
Quelle: Eigene Berechnungen
Approximation von Verteilungen
ErklärungGrenzwertsatz von de Moivre und Laplace
Erklärunglogarithmische Normalverteilung
ErklärungNormalverteilung
ErklärungNormalverteilung, bivariate
ErklärungStandardnormalverteilung
ErklärungZentraler Grenzwertsatz
Erklärung
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 12
Herunterladen