methods_deutsch_02 [Schreibgeschützt]

Werbung
Die Wahrscheinlichkeitstheorie ist eine sehr junge mathematische Disziplin
angesichts der Tatsache, dass die (vermeintliche) Zufälligkeit natürlicher
Ereignisse den Menschen während seiner gesamten Kulturgeschichte immer
wieder stark beschäftigt hat. So ist schon von den alten Ägyptern bekannt, dass
sie ausgiebig einer Art Würfelspiel frönten. Pharao Ramses III, der im 12.
Jahrhundert vor Christus lebte, ließ sich sogar Würfel spielend mit zwei Damen
seines Harems an der Hohen Pforte des Medinet-Habu-Tempels porträtieren.
Der Gebrauch von Würfeln war nicht auf die so genannten "klassischen
Hochkulturen" beschränkt. Rund um die Welt und zu allen Zeiten haben
Menschen mit Würfeln unterschiedlichster Art Glücksspiel betrieben. Die
Eingeborenen Afrikas und Nordamerikas, die Azteken, Mayas, Polynesier und
Eskimos nutzen Pflaumen- und Pfirsichkerne, Kiesel, Samen, Knochen, Horn,
Keramik, Walnussschalen, Bieberzähne oder Muscheln zum Würfelspiel.
Es ist allerdings unwahrscheinlich, dass Julius Cäsar beim Ausspruch der
berühmten Worte "Alea iacta est!" ("Die Würfel sind gefallen!") seine Lage als
Ergebnis des Zufalls betrachtete. Als er 49 vor Christus den Fluss Rubikon
überquerte und dabei das besagte Zitat fallen ließ, überschritt er mit voller
Absicht die Grenzen seiner Provinzen. Er wurde so zum Eindringling in Italien
und löste einen Bürgerkrieg gegen den römischen Senat aus.
Universitätsklinikum Schleswig-Holstein ©2012
1
In den Naturwissenschaften wird dem Zufall oft eine operationale Bedeutung
zugewiesen: Dinge geschehen "zufällig", wenn deren Ursachen unbekannt sind
oder sich nicht kontrollieren lassen. Wenn in einem Experiment alle
kontrollierbaren Variablen festgelegt wurden, wird die verbleibende Variabilität
im Ausgang des Experiments als "zufällig" bezeichnet. Ob ein Patient eine
bestimmte Therapie überlebt, hängt von so vielen Faktoren ab, dass wohl jeder
Doktor bereitwillig der Ansicht zustimmen würde, dass auch ein wenig Glück
vonnöten ist.
In der Wissenschaftsgeschichte wurde "Zufall" also lange als Stellvertreter für
das Unwissen des Beobachters behandelt. Mit dem Aufkommen der
Quantenmechanik scheint sich die Welt aber im Kern als zufällig zu erweisen. In
der Tat sind viele physikalische Prozesse, die auf quantenmechanischen Effekten
beruhen, von Natur aus zufällig. Ein weithin bekanntes Beispiel hierfür ist der
zeitliche Verlauf des radioaktiven Zerfalls.
In den zwanziger Jahren des 20. Jahrhunderts wurde Sir Ronald A. Fisher zum
Gründervater der modernen Statistik, indem er maßgeblich die Entwicklung
einer wissenschaftlichen Theorie vom Aufbau und der Analyse von
Experimenten vorantrieb. Den größten Teil seiner theoretischen Forschung
betrieb Fisher an der Rothamsted Agricultural Experiment Station, wo er 15
Jahre lang eng mit empirischen Wissenschaftlern zusammenarbeitete. Fishers
Sicht der Rolle der Statistik wird in folgendem Zitat aus dem Jahre 1938
deutlich: "Einen Statistiker zu konsultieren, wenn das Experiment vorbei ist,
kommt meistens der Bitte um eine Obduktion gleich. Der Statistiker kann
vielleicht noch sagen, woran das Experiment gestorben ist.”
Universitätsklinikum Schleswig-Holstein ©2012
2
Universitätsklinikum Schleswig-Holstein ©2012
3
Der französische Mathematiker und Astronom Pierre Simon Laplace wurde am
23. März 1749 in Beaumont-en-Auge in der Normandie geboren und starb am 5.
März 1827 in Paris. Er war der Sohn eines Landarbeiters und verdankte seine
Ausbildung im Wesentlichen dem Interesse einiger reicher Nachbarn an seinen
Talenten und an seiner bemerkenswerten Persönlichkeit.
Laplace gilt als einer der größten Wissenschaftler aller Zeiten (Vielen sogar als
französischer Newton) und war mit einer einmaligen mathematischen Begabung
ausgestattet. Ein zentrales Thema seines Lebenswerks war die
Wahrscheinlichkeitstheorie, und die heute als "klassisch" bezeichnete
Interpretation der Wahrscheinlichkeit als Quotient der Anzahl günstiger und
möglicher Ausgänge eines Zufallsexperiments wurde erstmals 1779 von Laplace
angeregt. Im Jahr 1812 bewies Laplace auch den so genannten "Zentralen
Grenzwertsatz", der die Erklärung dafür liefert, warum Daten unterschiedlichster
Art und Herkunft oftmals eine glockenförmige Verteilung besitzen.
In seinem 1812 erschienenen Buch "Théorie analytique des probabilités" traf
Laplace die folgende wichtige Aussage: "Wir sehen, dass die
Wahrscheinlichkeitstheorie im Grunde nichts weiter ist als gesunder
Menschenverstand, reduziert auf mathematische Berechnungen. Wir können
durch sie Dinge mit Exaktheit analysieren, die vernünftige Geister intuitiv
erfassen, oft allerdings ohne zu verstehen wie. [...] Es ist bemerkenswert, dass
diese aus der Beschäftigung mit dem Glücksspiel entstandene Wissenschaft zum
wichtigsten Teil menschlichen Wissens wurde. [...] Die wichtigsten Fragen im
Leben sind im Wesentlichen eigentlich nur Fragen von Wahrscheinlichkeiten."
Universitätsklinikum Schleswig-Holstein ©2012
4
Der am 4. August 1834 im englischen Hull geborene Mathematiker John Venn
lieferte wesentliche Beiträge zur mathematischen Logik und zur
Wahrscheinlichkeitstheorie. Am besten ist er jedoch in Erinnerung geblieben
wegen des von ihm entwickelten Venn-Diagramms, einer graphischen Methode
zur Veranschaulichung des Verhältnisses von Mengen zueinander.
Um die Mitte des 19. Jahrhunderts führten die Probleme und Paradoxa der
klassischen Interpretation zur Entwicklung eines neuen Konzepts der
Wahrscheinlichkeit. In seinem Buch "Logic of Chance" von 1866 legte John Venn
die Grundlagen für die so genannte "frequentistische" Interpretation, die besagt,
dass der Begriff der Wahrscheinlichkeit nur im Kontext wohl definierter
Zufallsexperimente Sinn macht. Aus frequentistischer Sicht entspricht die relative
Häufigkeit eines bestimmten Ausgangs in einer großen Anzahl von
Wiederholungen ein und desselben Experiments der Wahrscheinlichkeit dieses
Ausgangs. Die frequentistische Interpretation ist auch heute noch die unter
Naturwissenschaftlern am weitesten verbreitete Sicht der Wahrscheinlichkeit.
John Venn starb am 4. April 1923 in Cambridge.
Universitätsklinikum Schleswig-Holstein ©2012
5
Frank Plumpton Ramsey (1903-1930) war ein britischer Mathematiker und
Philosoph, der hauptsächlich durch seine Arbeiten über die Grundlagen der
Mathematik bekannt wurde. Daneben lieferte Ramsey auch einige
bemerkenswerte Beiträge zur Epistemologie, Wissenschaftsphilosophie,
Semantik, Logik, Statistik und Entscheidungstheorie sowie zur
Wirtschaftswissenschaft und zur Metaphysik. Sein philosophisches und
wissenschaftliches Werk umfasst nicht mehr als 15 Arbeiten, denen jedoch allen
die gleiche Sicht der Philosophie als grundsätzlich analytisches Instrument
gemein ist.
In seiner Arbeit "Truth and Probability" von 1926 legte Ramsey die Grundlagen
der modernen Theorie der subjektiven Wahrscheinlichkeit. Er wies nach, dass
sich die Wünsche und Vorstellungen von Individuen mit dem Instrumentarium
der traditionellen Wette analysieren lassen. So behauptete Ramsey, dass der
Überzeugungsgrad einer Person der niedrigsten für diese Person gerade noch
akzeptablen Gewinnaussicht bei einer Wette entspräche. Ramsey sah seine
Methode als "grundsätzlich richtig" an, räumte aber ein, dass sie sich nur schwer
verallgemeinern ließ, teils wegen des "zunehmend geringeren Nutzens des
Geldes", teils weil Menschen "dem Wetten unterschiedlich zu- bzw. abgeneigt
sind". Um diese Probleme zu umgehen, begründete Ramsey seine Theorie der
Nützlichkeit. Er wies nach, dass der Überzeugungsgrad von Personen, die
gewisse Verhaltensregeln und -axiome befolgen, in der Tat den Gesetzen der
Wahrscheinlichkeit folgt.
Universitätsklinikum Schleswig-Holstein ©2012
6
Andrej Nikolajewitsch Kolmogorov (geboren am 25. April 1903 in Tambov,
gestorben am 20. Oktober 1987 in Moskau) war ein russischer Mathematiker,
dessen Arbeiten zu grundlegenden Meilensteinen der Wahrscheinlichkeitstheorie
und der Topologie wurden. Er gilt als einer der größten Mathematiker aller Zeiten
und hat nicht nur die Mathematik sondern auch die Ingenieurwissenschaften
maßgeblich beeinflusst.
Kolmogorov graduierte 1925 von der Staatlichen Universität in Moskau zu einem
Zeitpunkt, als er bereits acht eigene wissenschaftliche Arbeiten publiziert hatte.
Er beendete seine Doktorarbeit im Jahre 1929 und wurde 1931 zum Professor an
der Moskauer Universität berufen.
In seinem 1933 veröffentlichten Buch mit dem Titel "Grundbegriffe der
Wahrscheinlichkeitsrechnung" errichtete Kolmogorov in streng formaler Weise
die Wahrscheinlichkeitstheorie auf der Basis fundamentaler Axiome, vergleichbar
der Euklidischen Geometrie. Kolmogorovs axiomatische Sicht hat in der
Mathematik in der Zwischenzeit den Status der Orthodoxie erlangt und steht für
das, woran Statistiker und Mathematiker bei dem Begriff
"Wahrscheinlichkeitstheorie" denken.
Universitätsklinikum Schleswig-Holstein ©2012
7
Und jetzt halten Sie den Atem an ...
Universitätsklinikum Schleswig-Holstein ©2012
8
Keine Sorge. Nur der Vollständigkeit halber zeigt diese Folie eine Darstellung der
Kolmogorovschen Axiome, wie man sie in jedem Lehrbuch zur
Wahrscheinlichkeitstheorie findet. Obgleich Grundlage einer ganzen
mathematischen Disziplin würde eine tiefer gehende Behandlung der Axiome
den Rahmen einer Vorlesung zur Wissenschaftsmethodik sprengen.
Interessanterweise werden die in den Axiomen von Kolmogorov enthaltenen
Ideen jedoch unmittelbar einleuchtend, wenn man sie an einem geschickt
gewählten Beispiel verdeutlicht.
Stellen Sie sich Ω als eine Urne mit vielen verschiedenfarbigen Murmeln vor. Eine
nahe liegende Wahl von ∆ ist die Familie aller Teilmengen von Murmeln. Diese
Familie enthält Ω selbst (weil alle Murmeln in der Urne natürlich auch eine
Teilmenge der Murmeln bilden), und sie ist abgeschlossen bezüglich
Komplementbildung (die Murmeln, die nicht zu einer Teilmenge A gehören,
bilden selbst die Teilmenge "AC") und Vereinigung (zwei Teilmengen
zusammengenommen bilden die Teilmenge "A∪B").
Denken Sie jetzt bei P(A) einfach an die relative Anzahl der Murmeln in A. Dies
ist eine mathematische Funktion, weil sie jeder Murmelmenge eine reelle Zahl
zuordnet. Darüber hinaus kann man sich leicht davon überzeugen, dass es sich
bei der Funktion P um eine Wahrscheinlichkeit handelt, da sie allen drei
Kolmogorovschen Axiome genügt. Übrigens erfüllen viele Messgrößen, die per se
nichts mit Wahrscheinlichkeit zu tun haben, auch die Kolmogorovschen Axiome:
normalisierte Massen, Längen, Flächen und Inhalte.
Universitätsklinikum Schleswig-Holstein ©2012
9
Beim Würfelspiel, dem Standardbeispiel zur Erläuterung abstrakter
wahrscheinlichkeitstheoretischer Prinzipien, entspricht Ω der Menge der ganzen
Zahlen zwischen 1 und 6. ∆ ist wieder die Familie aller Teilmengen von Ω, und
die Elemente von ∆, d.h. die Teilmengen von Ω, werden von nun an "Ereignisse"
genannt. Die Teilmenge {1,3,5} entspricht also z.B. dem Ereignis "ungerade
Augenzahl", die Teilmenge {5,6} ist das Ereignis "mindestens 5 Punkte". Für eine
gegebene Teilmenge A definieren wir P(A) wie zuvor als die relative Anzahl der
Elemente in A. Dies bedeutet P({1,3,5})=1/2 und P({5,6})=1/3.
Universitätsklinikum Schleswig-Holstein ©2012
10
Viele wahrscheinlichkeitstheoretische Zusammenhänge werden leichter
verständlich, wenn man bei Ereignissen an Flächen und bei den
Wahrscheinlichkeiten von Ereignissen an die Inhalte von Flächen denkt. Dies ist
die so genannte "maßtheoretische" Sichtweise der Wahrscheinlichkeit. Stellt man
sich die Ereignisse A und B also als zwei Flächen eines Venn-Diagramms vor, so
entspricht das Eintreten von mindestens einem der beiden Ereignisse der
Vereinigung dieser Flächen, d.h. A∪B. Das gleichzeitige Eintreten von A und B
entspricht der Überlappung beider Flächen, d.h. der Schnittmenge A∩B . Das
Ereignis AC (das Gegenteil, oder "Komplement", von A) entspricht dem Teil der
Gesamtfläche (d.h. Ω), der nicht mit A überlappt.
Mit dieser Interpretation im Hinterkopf lassen sich die beiden kleinen Theoreme
im unteren Teil der vorliegenden Folie leicht verstehen. Der Inhalt der Fläche
A∪B ist gleich der Summe der Inhalte von A und B abzüglich des Inhalts von
A∩B, der ja zweimal aufaddiert wurde. Wenn der Inhalt von Ω eins beträgt (wie
vom 2. Kolmogorovschen Axiom gefordert), dann beläuft sich der Inhalt dessen,
was nicht zu A gehört, auf eins minus den Inhalt von A.
Universitätsklinikum Schleswig-Holstein ©2012
11
Zwei Ereignisse heißen "stochastisch unabhängig", wenn die Wahrscheinlichkeit
für ihr gleichzeitiges Eintreten gleich dem Produkt der beiden
Einzelwahrscheinlichkeiten ist. Nehmen wir z.B. einmal an, dass das
Geschlechterverhältnis unter Studenten 1:1 beträgt, und dass die Geburtstage
von Studenten gleichmäßig über die Wochentage verteilt sind. In diesem Fall
beträgt die Wahrscheinlichkeit dafür, dass als nächstes ein weibliches
Sonntagskind den Hörsaal betritt, 1/2 mal 1/7, also 1/14.
Dies ist die eine Richtung, in der das Konzept der stochastischen Unabhängigkeit
verwendet wird, nämlich auf Grund wissenschaftlicher Evidenz oder gesunden
Menschenverstands die Unabhängigkeit von Ereignissen vorauszusetzen und die
Wahrscheinlichkeit für ihr gleichzeitiges Eintreten durch Produktbildung zu
berechnen. In der wissenschaftlichen Forschung wird dieser logische
Zusammenhang jedoch oftmals umgedreht. Viele Experimente widmen sich
nämlich gezielt der Frage, ob zwei Zufallsereignisse in einem Zusammenhang
miteinander stehen oder nicht. Die Unabhängigkeit der fraglichen Ereignisse wird
dann aus der Tatsache gefolgert, dass die (geschätzte) Wahrscheinlichkeit ihres
gemeinsamen Eintretens mit dem Produkt der (geschätzten)
Einzelwahrscheinlichkeiten übereinstimmt.
Universitätsklinikum Schleswig-Holstein ©2012
12
Der Zusammenhang zwischen Bluthochdruck und erhöhten Blutfettwerten kann
aus der Tatsache geschlossen werden, dass dreimal mehr US-Amerikaner an
beiden Gesundheitsproblemen leiden, als "durch Zufall zu erwarten wäre".
Formal heißt dies, dass die empirisch geschätzte Wahrscheinlichkeit dafür, dass
eine zufällig gezogene Person gleichzeitig hypertensiv und hyperlipidämisch ist
(also 0.17), dreimal größer ist als das Produkt der beiden
Einzelwahrscheinlichkeiten (nämlich 0.25⋅0.20=0.05).
Universitätsklinikum Schleswig-Holstein ©2012
13
Das formale Konzept der Zufallsvariablen ist mathematisch kompliziert und ohne
wahrscheinlichkeitstheoretisches Hintergrundwissen kaum zu verstehen. Im
Kontext der Diskussion wissenschaftlicher Methodik reicht es jedoch aus, in
Zufallsvariablen einen Kunstgriff zu sehen, der die Bezugnahme auf noch nicht
eingetretene Zufallsereignisse erleichtert. In gewisser Weise sind Zufallsvariable
Platzhalter für Ereignisse, die entweder antizipiert werden oder vielleicht auch
niemals eintreten, die es aber trotzdem Wert sind, dass man sich Gedanken über
sie macht.
Wenn wir z.B. an der Rate interessiert sind, mit der fünf bestimmte Würfel eine
6 zeigen, dann könnten wir uns auf das Ergebnis eines einzigen Wurfes etwa wie
folgt beziehen: "... der erste Würfel, der 50 Millisekunden vor dem zweiten
Würfel die Oberfläche der Tischs erreichte, zeigte keine 6, während der zweite
Würfel, der 7.5 mm neben dem ersten Würfel zum Liegen kam, eine 6 zeigte,
was jedoch für den dritten Würfel nicht der Fall war, der ...". Warum sich das
Leben so schwer machen? Bezeichnen wir doch die Anzahl der Würfel, die eine 6
zeigen, einfach mit "X" und den uns interessierenden möglichen Ausgang mit
"X=2". Das komplizierte Muster roter Holzwürfel, dass wir später auf dem Tisch
zu sehen bekommen, nennen wir dann eine "Realisierung" der Zufallsvariablen
X.
Universitätsklinikum Schleswig-Holstein ©2012
14
Die Realisierungen von Zufallsvariablen sind zufällige Ereignisse. Daher macht es
Sinn, etwa die folgende Frage zu stellen: "Mit welcher Wahrscheinlichkeit nimmt
X den Wert 2 an?", oder knapper formuliert: "Wie groß ist P(X=2)?". Die
Funktion f(a), die jedem möglichen Ausgang "a" einer Realisierung von X die
Wahrscheinlichkeit P(X=a) zuordnet, heißt die "Wahrscheinlichkeitsfunktion" von
X. Die Wahrscheinlichkeitsfunktion spezifiziert die so genannte "Verteilung" der
Zufallsvariablen, und damit ihre gesamte stochastische Natur.
Universitätsklinikum Schleswig-Holstein ©2012
15
Der Binomialverteilung liegt das am häufigsten verwendete Modell für binäre
Zufallsvariable zu Grunde, d.h. für Zufallsvariable, die nur zwei mögliche Werte
annehmen können (z.B. "männlich", "weiblich").
In der Definition der Wahrscheinlichkeitsfunktion steht der Term πk⋅(1-π)n-k als
Abkürzung für π⋅π⋅π...{k mal}⋅(1-π)⋅(1-π)⋅(1-π)...{n-k mal}. Die Produktbildung
rührt von der Unabhängigkeit der n Wiederholungen her. In jeder Wiederholung
beobachtet man entweder einen Erfolg (mit Wahrscheinlichkeit π) oder einen
Misserfolg (mit Wahrscheinlichkeit 1-π); gesucht ist die Wahrscheinlichkeit für k
Erfolge und n-k Misserfolge. Der merkwürdige Binomialkoeffizient ist
erforderlich, da die Reihenfolge der Erfolge und Misserfolge für das Ergebnis
nicht relevant ist.
Universitätsklinikum Schleswig-Holstein ©2012
16
Ist z.B. n=5 und k=3, dann muss man bei der Berechnung von f(3) neben dem
Term π⋅(1-π)⋅π⋅(1-π)⋅π auch den Term (1-π)⋅π⋅π⋅(1-π)⋅π und alle anderen
Produkte berücksichtigen, die drei π's und zwei (1-π)'s enthalten. Aber wie viele
solcher Produkte gibt es? Die Antwort liefert der Binomialkoeffizient.
Für die Auswahl der ersten Position bestehen offensichtlich 5 Möglichkeiten,
danach 4 Möglichkeiten für die zweite Position und 3 Möglichkeiten für die dritte.
Insgesamt gibt es also 5⋅4⋅3=60 Auswahlmöglichkeiten, von denen sich viele
aber nur hinsichtlich der Reihenfolge der ausgewählten Positionen
unterscheiden. So ist z.B. die Auswahl 1-2-3 ebenso in den 60 Möglichkeiten
enthalten wie die Auswahl 3-2-1.
Um für dieses mehrfache enthalten Sein zu korrigieren, müssen wir 60 durch die
Anzahl der Auswahlmöglichkeiten teilen, die jeweils äquivalent zueinander sind,
d.h. die gleiche Positionen enthalten und sich nur hinsichtlich der Reihenfolge
dieser Positionen unterscheiden. Diese Zahl entspricht offensichtlich der Anzahl
der möglichen Reihenfolgen (Permutationen) von 3 verschiedenen Positionen,
die wiederum 3!=3⋅2⋅1=6 (oder allgemein k!) beträgt.
Universitätsklinikum Schleswig-Holstein ©2012
17
Universitätsklinikum Schleswig-Holstein ©2012
18
Universitätsklinikum Schleswig-Holstein ©2012
19
Stetigen Zufallsvariablen liegt die gleiche Idee zu Grunde wie diskreten
Zufallsvariablen. Für stetige Zufallsvariable macht jedoch die Angabe einer
Wahrscheinlichkeitsfunktion normalerweise keinen Sinn. Wenn X für den BMI
eines zufällig ausgewählten Mannes aus Ihrer Heimatstadt steht, dann ist es
sinnlos, nach der Wahrscheinlichkeit zu fragen, mit der dieser BMI genau 22.5
beträgt. Die Antwort ist "null", und für jede andere stetige Zufallsvariable von
praktischem Interesse wird es genauso sein.
Statt durch eine Wahrscheinlichkeitsfunktion wird die Verteilung einer stetigen
Zufallsvariablen durch deren "Verteilungsfunktion" spezifiziert. Für jede reelle
Zahl b gibt die Verteilungsfunktion F(b) an, mit welcher Wahrscheinlichkeit X
Werte annimmt, die kleiner oder gleich b sind, d.h. F(b)=P(X≤b).
Universitätsklinikum Schleswig-Holstein ©2012
20
Da Verteilungsfunktionen Wahrscheinlichkeiten angeben, liegen ihr Werte immer
zwischen 0 und 1. Dies folgt unmittelbar aus dem 1. und 2. Kolmogorovschen
Axiom.
Wenn eine reelle Zahl b1 kleiner ist als eine andere Zahl b2, dann folgt aus dem
Eintreten des Ereignisses X≤b1 stets auch das Eintreten des Ereignisses X≤b2.
Daher gilt P(X≤b1)≤P(X≤b2) für alle Paare von reellen Zahlen, die b1<b2 erfüllen,
d.h. jede Verteilungsfunktion ist monoton wachsend.
Universitätsklinikum Schleswig-Holstein ©2012
21
In der Praxis wird die Verteilungsfunktion einer stetigen Zufallsvariablen
meistens durch das Integral der so genannten "Dichtefunktion" (oder kurz
"Dichte") definiert. Eine Dichte ist eine nicht-negative Funktion (d.h. f(x)≥0 für
alle x, was zur Erfüllung des 1. Kolmogorovschen Axioms erforderlich ist), für die
die Gesamtfläche unter der Kurve gleich eins ist (2. Kolmogorovsches Axiom).
Das Integral zwischen -∞ ("minus unendlich") und b entspricht der Fläche, die
von der Kurve f(x) selbst, der X-Achse und einer vertikalen Linie bei b
eingeschlossen wird. Umgangssprachlich kann man daher sagen, dass die
Wahrscheinlichkeit, mit der X Werte kleiner oder gleich b annimmt, der "Fläche
unter der Dichte links von b" entspricht. Ebenso ergibt sich die
Wahrscheinlichkeit, dass X Werte zwischen zwei reellen Zahlen a und b annimmt,
aus der "Fläche unter der Dichte zwischen a und b".
Universitätsklinikum Schleswig-Holstein ©2012
22
Zwei Zufallsvariable X und Y heißen "stochastisch unabhängig", wenn die beiden
Ereignisse "X nimmt Werte kleiner oder gleich a an" und "Y nimmt Werte kleiner
oder gleich b an" für jedes Paar reeller Zahlen a und b stochastisch unabhängig
voneinander sind.
Universitätsklinikum Schleswig-Holstein ©2012
23
Universitätsklinikum Schleswig-Holstein ©2012
24
Der Erwartungswert E(X) einer quantitativen Zufallsvariablen X ist der Wert, der
bei einer Realisierung von X im Durchschnitt zu erwarten ist. Zu seiner
Berechnung wird jeder mögliche Wert von X mit seiner
Eintrittswahrscheinlichkeit bzw. Dichte gewichtet, und die gewichtete Summe
(diskrete Zufallsvariable) bzw. das Integral (stetige Zufallsvariable) über alle
möglichen Werte gebildet. Ähnlich dem Stichprobenmittel aus der deskriptiven
Statistik, das die Lage der Daten einer Stichprobe misst, gibt der Erwartungswert
die erwartete Lage eines einzelnen (zukünftigen) Datenpunkts an ("Wo wird die
nächste Realisierung von X im Durchschnitt liegen?").
Universitätsklinikum Schleswig-Holstein ©2012
25
Dieses Beispiel verdeutlicht sehr schön, dass der Erwartungswert einer
Zufallsvariablen nicht notwendigerweise ein real möglicher Wert sein muss. Kein
normaler Würfel kann 3.5 Punkte zeigen, aber die Augenzahl wird eben ungefähr
bei 3.5 liegen (und nicht bei 1256.6 oder -5.9). Beachten Sie, dass auch der
Mittelwert einer Stichprobe ein Wert sein kann, der in der Stichprobe selbst gar
nicht beobachtet wurde, oder der vielleicht sogar unmöglich ist.
Universitätsklinikum Schleswig-Holstein ©2012
26
Das "Gesetz der Großen Zahlen" ist ein wichtiges Theorem der
Wahrscheinlichkeitstheorie und liefert gleichzeitig eine sehr anschauliche
Interpretation des Erwartungswertes. Nehmen wir an, wir antizipieren nicht nur
eine Realisierung der Zufallsvariablen X, sondern sehr viele, sagen wir n
Realisierungen. Der Durchschnitt dieser Realisierungen wäre selbst wieder die
Realisierung einer (neuen) Zufallsvariablen. Das Gesetz der großen Zahlen
besagt nun, dass der Durchschnitt der Realisierungen von X für hinreichend
großes n nahezu konstant und kaum mehr zufällig oder variabel ist. Der Wert,
dem sich der Durchschnitt für immer größeres n annähert, ist E(X).
Der Erwartungswert einer Zufallsvariablen X kann also als das Stichprobenmittel
interpretiert werden, dass man bekommen würde, wenn man X sehr, sehr
(eigentlich unendlich) oft realisiert (d.h. beobachtet). Der Erwartungswert des
BMI eines zufällig ausgewählten Mannes aus Ihrer Heimatstadt ist also der
durchschnittliche BMI aller dort lebenden Männer.
Universitätsklinikum Schleswig-Holstein ©2012
27
Diese Abbildung veranschaulicht das Gesetz der Großen Zahlen am Beispiel des
Würfelspiels. Jeder Punkt steht für die durchschnittliche Augenzahl aus n=10
(linke Spalte), n=100 (mittlere Spalte) bzw. n=500 (rechte Spalte) Würfen eines
einzelnen Würfels. Jede Spalte enthält 100 Punkte, die 100 Wiederholungen des
gleichen Spiels entsprechen. Wie man sieht, liegen alle Punkte in der Nähe des
Erwartungswertes für die Augenzahl eines einzelnen Wurfes, nämlich 3.5. Mit
wachsendem n streuen die Punkte aber zunehmend weniger, und schon für
n=500 Würfe liegen alle 100 Durchschnitte fast konstant bei 3.5.
Universitätsklinikum Schleswig-Holstein ©2012
28
Die Varianz Var(X) einer Zufallsvariablen X ist der Erwartungswert einer
Transformation von X, nämlich der Zufallsvariablen [X-E(X)]2. Diese neue
Zufallsvariable entsteht, indem man von X zunächst den Erwartungswert E(X)
subtrahiert. Diese Subtraktion nennt man "Zentralisierung", weil sie zur Folge
hat, dass die Realisierungen der Transformation nun um den Wert null streuen.
Anschließend wird die Differenz quadriert, so dass die Varianz mehr Gewicht auf
große Abweichungen zwischen X-E(X) und null, d.h. zwischen X und E(X), legt.
Die Wurzel aus der Varianz von X wird als Standardabweichung von X
bezeichnet. Wie im Fall des Erwartungswertes so nähert sich auch bei der
Standardabweichung der empirisch beobachtete Wert in einer Stichprobe von
sehr vielen Realisierungen von X dem hier definierten, theoretischen Wert an.
Die Standardabweichung des BMI eines zufällig ausgewählten Mannes aus Ihrer
Heimatstadt entspricht also der Standardabweichung des BMI unter allen dort
lebenden Männern.
Universitätsklinikum Schleswig-Holstein ©2012
29
Universitätsklinikum Schleswig-Holstein ©2012
30
Universitätsklinikum Schleswig-Holstein ©2012
31
Wenn X und Y Zufallsvariable sind, dann ist natürlich auch X+Y eine
Zufallsvariable (ebenso X⋅Y, X/Y, Y/X usw.). Wenn X also z.B. für das
Jahreseinkommen eines männlichen Ehepartners steht, und Y für das
Jahreseinkommen des weiblichen Partners, so bezeichnet X+Y das jährliche
Familieneinkommen. Wenn X eine Zufallsvariable ist und α eine reelle Zahl, dann
ist auch α⋅X eine Zufallsvariable. Bezeichnet X z.B. das Gewicht eines zufällig
ausgewählten Mannes in Kilogramm, so steht 2.2⋅X für das Gewicht gemessen in
imperialen Pfund.
Universitätsklinikum Schleswig-Holstein ©2012
32
Die wichtigste Verteilung stetiger Zufallsvariabler ist die so genannte
"Normalverteilung". Eine Zufallsvariable heißt "normalverteilt", wenn ihre
Verteilung durch die auf der Folie angegebenen Dichte f(x) spezifiziert wird. Die
Normalverteilung wird oft auch "Gaußverteilung" genannt zu Ehren des
deutschen Mathematikers Carl Friedrich Gauß (1777-1855), der viele ihrer
Eigenschaften entdeckte, sie aber nicht "erfunden" hat (eine Leistung, die um
1720 durch den englischen Mathematiker Abraham de Moivre vollbracht wurde).
Gauß, der zu Recht als einer der größten Mathematiker (wenn nicht sogar "der"
größte) aller Zeiten gilt, wurde in Deutschland vor Einführung des Euros durch
Abdruck seines Konterfeis auf der 10 DM-Note gewürdigt.
Universitätsklinikum Schleswig-Holstein ©2012
33
Eine ganz besondere Verteilung ist die N(0,1)-Verteilung, also jene
Normalverteilung, für die µ=0 und σ2=1 gilt. Sie wird als "StandardNormalverteilung" bezeichnet, und ihre Verteilungsfunktion Φ(z) ist in allen
gängigen Statistiklehrbüchern tabelliert. Wie wir später noch sehen werden, ist
auf der vorliegenden Folie ein praktisch höchst relevanter Wert der
Verteilungsfunktion der Standard-Normalverteilung markiert, nämlich
Φ(1.96)=0.975.
Universitätsklinikum Schleswig-Holstein ©2012
34
Die Verteilungsfunktion einer Normalverteilung kann nicht "zu Fuß" durch
Integrieren der Dichte berechnet werden. Auf der anderen Seite ist es aber nicht
möglich, F(b) für jede denkbare Kombination von Erwartungswert µ und Varianz
σ2 zu tabellieren. Glücklicherweise ist dies auch gar nicht notwendig, da sich die
Verteilungsfunktion F(b) einer beliebigen Normalverteilung sehr einfach aus der
Verteilungsfunktion Φ(z) der Standard-Normalverteilung gewinnen lässt.
Universitätsklinikum Schleswig-Holstein ©2012
35
Universitätsklinikum Schleswig-Holstein ©2012
36
Dies ist eine graphische Darstellung der Standard-Normalverteilung. Die Dichte
jeder Normalverteilung ist symmetrisch um ihren Erwartungswert (in diesem Fall
die Null) und weist die typische Glockenform auf. Die blau markierte Fläche
beträgt 0.68, was bedeutet, dass eine Zufallsvariable mit N(0,1)-Verteilung mit
Wahrscheinlichkeit 0.68 Werte zwischen +1 und -1 annimmt.
Die Werte x=+1 und x=-1 markieren die Wendepunkte der Dichte f(x). Wenn
man mit dem Auto entlang der Dichtekurve fahren würde, wären dies die beiden
Punkte, an denen das Lenkrad wieder genau in der Geradeausposition steht. Die
Wendepunkte der Dichte einer allgemeinen Normalverteilung N(µ,σ2) liegen bei
µ-σ und µ+σ, und die Fläche zwischen diesen beiden Werten beträgt ebenfalls
0.68.
Universitätsklinikum Schleswig-Holstein ©2012
37
Wegen der Symmetrie ihrer Dichte nimmt eine normalverteilte Zufallsvariable
Werte unterhalb (bzw. oberhalb) ihres Erwartungswertes genau mit
Wahrscheinlichkeit 0.5 an.
Universitätsklinikum Schleswig-Holstein ©2012
38
Etwa 95% der Masse einer N(0,1)-Verteilung befindet sich zwischen -1.96 und
+1.96. Mit anderen Worten beträgt die Wahrscheinlichkeit für Realisierungen
außerhalb dieses Bereichs gerade einmal 1-0.95=0.05.
Universitätsklinikum Schleswig-Holstein ©2012
39
Etwa 95% der Masse einer N(0,1)-Verteilung liegt links von 1.65 und, wegen der
Symmetrie, rechts von -1.65.
Universitätsklinikum Schleswig-Holstein ©2012
40
Die blaue vertikale Linie markiert den Erwartungswert µ, die roten Linien
befinden sich jeweils an den Wendepunkten µ-σ und µ+σ. Wie man sieht, führt
eine Veränderung von µ zu einer Verschiebung der Dichte nach links
(Verkleinerung von µ) oder rechts (Erhöhung von µ); die Form der Dichte bleibt
unverändert. Eine Veränderung von σ2 streckt (Erhöhung von σ2) oder staucht
(Verringerung von σ2) die Dichte, ohne deren Position zu verändern.
Universitätsklinikum Schleswig-Holstein ©2012
41
Der "Zentrale Grenzwertsatz" ist eines der bemerkenswertesten Resultate der
Wahrscheinlichkeitstheorie. Er besagt nämlich, dass der Mittelwert einer großen
Anzahl unabhängiger Realisierungen ein und der selben Zufallsvariablen nach
geeigneter Zentralisierung und Standardisierung annähernd einer StandardNormalverteilung folgt. Außerdem verbessert sich diese Approximation, wenn die
Anzahl der Realisierungen steigt. Der Zentrale Grenzwertsatz ist das Herzstück
der Wahrscheinlichkeitstheorie.
Universitätsklinikum Schleswig-Holstein ©2012
42
Das Galton-Brett (auch als "Quincunx" oder "bean machine" bekannt) wurde
nach dem englischen Wissenschaftler Sir Francis Galton benannt. Es besteht aus
einem Nagelgitter, das für hindurchrollende Kugeln auf dem Weg von oben nach
unten einen Zufallspfad erzeugt. Jedes mal, wenn eine Kugel einen Nagel trifft,
kann sie mit gleicher Wahrscheinlichkeit nach links oder rechts fallen.
Wenn unter jedem Durchlass in der untersten Nagelreihe ein kleiner
Glasbehälter angebracht wird, und wenn die Anzahl der Kugeln groß genug ist,
dann nähert sich das Balkendiagramm der aufgefangenen Kugeln rasch einer
Normalverteilung an.
Universitätsklinikum Schleswig-Holstein ©2012
43
Das Histogramm zeigt eine Stichprobe von 100 durchschnittlichen Augenzahlen,
jeweils gebildet aus jeweils 500 Würfen eines einzelnen Würfels. Das
Histogramm hat zwar schon ein etwas glockenförmiges Aussehen, die
Approximation ist aber noch nicht besonders gut.
Universitätsklinikum Schleswig-Holstein ©2012
44
Der Zentrale Grenzwertsatz erklärt, warum so viele natürliche Phänomene, die
auf der Aggregation kleiner unabhängiger Effekte basieren, eine glockenförmige
Verteilung aufweisen.
Allerdings ist gerade für den IQ eine Normalverteilung nicht zu erwarten, es sei
denn, der zur Messung verwendete Test wurde speziell im Hinblick darauf
entworfen. Die genaue Form der Verteilung des IQ hängt von der
durchschnittlichen Schwere der Testfragen und von deren Beziehungen
untereinander ab. Der Zentrale Grenzwertsatz gilt nicht für abhängige
Zufallsvariable, und die vielen Abhängigkeiten in gängigen IQ-Tests bedeuten,
dass die Verteilung des IQ viele verschiedene Formen annehmen kann.
Das 1994 von Herrnstein und Murray veröffentlichte Buch "The Bell Curve"
behauptet, dass der IQ ein starker Prädiktor vieler sozialer Übel sei,
einschließlich Verbrechen. Es nutzt diese "wissenschaftliche Gegebenheit", um
sich gegen soziale Wohlfahrtsprogramme zu wenden und insbesondere um die
Bestrafung von Tätern zu rechtfertigen. Durch das von ihnen gezeichnete Bild
eines Täters, der durch kognitive Nachteile in das Verbrechen getrieben wurde,
verschleiern die Autoren die Existenz weitaus stärkerer Risikofaktoren, für die es
zudem wirksam korrigierende Interventionen gibt.
Universitätsklinikum Schleswig-Holstein ©2012
45
Universitätsklinikum Schleswig-Holstein ©2012
46
Herunterladen