Die Wahrscheinlichkeitstheorie ist eine sehr junge mathematische Disziplin angesichts der Tatsache, dass die (vermeintliche) Zufälligkeit natürlicher Ereignisse den Menschen während seiner gesamten Kulturgeschichte immer wieder stark beschäftigt hat. So ist schon von den alten Ägyptern bekannt, dass sie ausgiebig einer Art Würfelspiel frönten. Pharao Ramses III, der im 12. Jahrhundert vor Christus lebte, ließ sich sogar Würfel spielend mit zwei Damen seines Harems an der Hohen Pforte des Medinet-Habu-Tempels porträtieren. Der Gebrauch von Würfeln war nicht auf die so genannten "klassischen Hochkulturen" beschränkt. Rund um die Welt und zu allen Zeiten haben Menschen mit Würfeln unterschiedlichster Art Glücksspiel betrieben. Die Eingeborenen Afrikas und Nordamerikas, die Azteken, Mayas, Polynesier und Eskimos nutzen Pflaumen- und Pfirsichkerne, Kiesel, Samen, Knochen, Horn, Keramik, Walnussschalen, Bieberzähne oder Muscheln zum Würfelspiel. Es ist allerdings unwahrscheinlich, dass Julius Cäsar beim Ausspruch der berühmten Worte "Alea iacta est!" ("Die Würfel sind gefallen!") seine Lage als Ergebnis des Zufalls betrachtete. Als er 49 vor Christus den Fluss Rubikon überquerte und dabei das besagte Zitat fallen ließ, überschritt er mit voller Absicht die Grenzen seiner Provinzen. Er wurde so zum Eindringling in Italien und löste einen Bürgerkrieg gegen den römischen Senat aus. Universitätsklinikum Schleswig-Holstein ©2012 1 In den Naturwissenschaften wird dem Zufall oft eine operationale Bedeutung zugewiesen: Dinge geschehen "zufällig", wenn deren Ursachen unbekannt sind oder sich nicht kontrollieren lassen. Wenn in einem Experiment alle kontrollierbaren Variablen festgelegt wurden, wird die verbleibende Variabilität im Ausgang des Experiments als "zufällig" bezeichnet. Ob ein Patient eine bestimmte Therapie überlebt, hängt von so vielen Faktoren ab, dass wohl jeder Doktor bereitwillig der Ansicht zustimmen würde, dass auch ein wenig Glück vonnöten ist. In der Wissenschaftsgeschichte wurde "Zufall" also lange als Stellvertreter für das Unwissen des Beobachters behandelt. Mit dem Aufkommen der Quantenmechanik scheint sich die Welt aber im Kern als zufällig zu erweisen. In der Tat sind viele physikalische Prozesse, die auf quantenmechanischen Effekten beruhen, von Natur aus zufällig. Ein weithin bekanntes Beispiel hierfür ist der zeitliche Verlauf des radioaktiven Zerfalls. In den zwanziger Jahren des 20. Jahrhunderts wurde Sir Ronald A. Fisher zum Gründervater der modernen Statistik, indem er maßgeblich die Entwicklung einer wissenschaftlichen Theorie vom Aufbau und der Analyse von Experimenten vorantrieb. Den größten Teil seiner theoretischen Forschung betrieb Fisher an der Rothamsted Agricultural Experiment Station, wo er 15 Jahre lang eng mit empirischen Wissenschaftlern zusammenarbeitete. Fishers Sicht der Rolle der Statistik wird in folgendem Zitat aus dem Jahre 1938 deutlich: "Einen Statistiker zu konsultieren, wenn das Experiment vorbei ist, kommt meistens der Bitte um eine Obduktion gleich. Der Statistiker kann vielleicht noch sagen, woran das Experiment gestorben ist.” Universitätsklinikum Schleswig-Holstein ©2012 2 Universitätsklinikum Schleswig-Holstein ©2012 3 Der französische Mathematiker und Astronom Pierre Simon Laplace wurde am 23. März 1749 in Beaumont-en-Auge in der Normandie geboren und starb am 5. März 1827 in Paris. Er war der Sohn eines Landarbeiters und verdankte seine Ausbildung im Wesentlichen dem Interesse einiger reicher Nachbarn an seinen Talenten und an seiner bemerkenswerten Persönlichkeit. Laplace gilt als einer der größten Wissenschaftler aller Zeiten (Vielen sogar als französischer Newton) und war mit einer einmaligen mathematischen Begabung ausgestattet. Ein zentrales Thema seines Lebenswerks war die Wahrscheinlichkeitstheorie, und die heute als "klassisch" bezeichnete Interpretation der Wahrscheinlichkeit als Quotient der Anzahl günstiger und möglicher Ausgänge eines Zufallsexperiments wurde erstmals 1779 von Laplace angeregt. Im Jahr 1812 bewies Laplace auch den so genannten "Zentralen Grenzwertsatz", der die Erklärung dafür liefert, warum Daten unterschiedlichster Art und Herkunft oftmals eine glockenförmige Verteilung besitzen. In seinem 1812 erschienenen Buch "Théorie analytique des probabilités" traf Laplace die folgende wichtige Aussage: "Wir sehen, dass die Wahrscheinlichkeitstheorie im Grunde nichts weiter ist als gesunder Menschenverstand, reduziert auf mathematische Berechnungen. Wir können durch sie Dinge mit Exaktheit analysieren, die vernünftige Geister intuitiv erfassen, oft allerdings ohne zu verstehen wie. [...] Es ist bemerkenswert, dass diese aus der Beschäftigung mit dem Glücksspiel entstandene Wissenschaft zum wichtigsten Teil menschlichen Wissens wurde. [...] Die wichtigsten Fragen im Leben sind im Wesentlichen eigentlich nur Fragen von Wahrscheinlichkeiten." Universitätsklinikum Schleswig-Holstein ©2012 4 Der am 4. August 1834 im englischen Hull geborene Mathematiker John Venn lieferte wesentliche Beiträge zur mathematischen Logik und zur Wahrscheinlichkeitstheorie. Am besten ist er jedoch in Erinnerung geblieben wegen des von ihm entwickelten Venn-Diagramms, einer graphischen Methode zur Veranschaulichung des Verhältnisses von Mengen zueinander. Um die Mitte des 19. Jahrhunderts führten die Probleme und Paradoxa der klassischen Interpretation zur Entwicklung eines neuen Konzepts der Wahrscheinlichkeit. In seinem Buch "Logic of Chance" von 1866 legte John Venn die Grundlagen für die so genannte "frequentistische" Interpretation, die besagt, dass der Begriff der Wahrscheinlichkeit nur im Kontext wohl definierter Zufallsexperimente Sinn macht. Aus frequentistischer Sicht entspricht die relative Häufigkeit eines bestimmten Ausgangs in einer großen Anzahl von Wiederholungen ein und desselben Experiments der Wahrscheinlichkeit dieses Ausgangs. Die frequentistische Interpretation ist auch heute noch die unter Naturwissenschaftlern am weitesten verbreitete Sicht der Wahrscheinlichkeit. John Venn starb am 4. April 1923 in Cambridge. Universitätsklinikum Schleswig-Holstein ©2012 5 Frank Plumpton Ramsey (1903-1930) war ein britischer Mathematiker und Philosoph, der hauptsächlich durch seine Arbeiten über die Grundlagen der Mathematik bekannt wurde. Daneben lieferte Ramsey auch einige bemerkenswerte Beiträge zur Epistemologie, Wissenschaftsphilosophie, Semantik, Logik, Statistik und Entscheidungstheorie sowie zur Wirtschaftswissenschaft und zur Metaphysik. Sein philosophisches und wissenschaftliches Werk umfasst nicht mehr als 15 Arbeiten, denen jedoch allen die gleiche Sicht der Philosophie als grundsätzlich analytisches Instrument gemein ist. In seiner Arbeit "Truth and Probability" von 1926 legte Ramsey die Grundlagen der modernen Theorie der subjektiven Wahrscheinlichkeit. Er wies nach, dass sich die Wünsche und Vorstellungen von Individuen mit dem Instrumentarium der traditionellen Wette analysieren lassen. So behauptete Ramsey, dass der Überzeugungsgrad einer Person der niedrigsten für diese Person gerade noch akzeptablen Gewinnaussicht bei einer Wette entspräche. Ramsey sah seine Methode als "grundsätzlich richtig" an, räumte aber ein, dass sie sich nur schwer verallgemeinern ließ, teils wegen des "zunehmend geringeren Nutzens des Geldes", teils weil Menschen "dem Wetten unterschiedlich zu- bzw. abgeneigt sind". Um diese Probleme zu umgehen, begründete Ramsey seine Theorie der Nützlichkeit. Er wies nach, dass der Überzeugungsgrad von Personen, die gewisse Verhaltensregeln und -axiome befolgen, in der Tat den Gesetzen der Wahrscheinlichkeit folgt. Universitätsklinikum Schleswig-Holstein ©2012 6 Andrej Nikolajewitsch Kolmogorov (geboren am 25. April 1903 in Tambov, gestorben am 20. Oktober 1987 in Moskau) war ein russischer Mathematiker, dessen Arbeiten zu grundlegenden Meilensteinen der Wahrscheinlichkeitstheorie und der Topologie wurden. Er gilt als einer der größten Mathematiker aller Zeiten und hat nicht nur die Mathematik sondern auch die Ingenieurwissenschaften maßgeblich beeinflusst. Kolmogorov graduierte 1925 von der Staatlichen Universität in Moskau zu einem Zeitpunkt, als er bereits acht eigene wissenschaftliche Arbeiten publiziert hatte. Er beendete seine Doktorarbeit im Jahre 1929 und wurde 1931 zum Professor an der Moskauer Universität berufen. In seinem 1933 veröffentlichten Buch mit dem Titel "Grundbegriffe der Wahrscheinlichkeitsrechnung" errichtete Kolmogorov in streng formaler Weise die Wahrscheinlichkeitstheorie auf der Basis fundamentaler Axiome, vergleichbar der Euklidischen Geometrie. Kolmogorovs axiomatische Sicht hat in der Mathematik in der Zwischenzeit den Status der Orthodoxie erlangt und steht für das, woran Statistiker und Mathematiker bei dem Begriff "Wahrscheinlichkeitstheorie" denken. Universitätsklinikum Schleswig-Holstein ©2012 7 Und jetzt halten Sie den Atem an ... Universitätsklinikum Schleswig-Holstein ©2012 8 Keine Sorge. Nur der Vollständigkeit halber zeigt diese Folie eine Darstellung der Kolmogorovschen Axiome, wie man sie in jedem Lehrbuch zur Wahrscheinlichkeitstheorie findet. Obgleich Grundlage einer ganzen mathematischen Disziplin würde eine tiefer gehende Behandlung der Axiome den Rahmen einer Vorlesung zur Wissenschaftsmethodik sprengen. Interessanterweise werden die in den Axiomen von Kolmogorov enthaltenen Ideen jedoch unmittelbar einleuchtend, wenn man sie an einem geschickt gewählten Beispiel verdeutlicht. Stellen Sie sich Ω als eine Urne mit vielen verschiedenfarbigen Murmeln vor. Eine nahe liegende Wahl von ∆ ist die Familie aller Teilmengen von Murmeln. Diese Familie enthält Ω selbst (weil alle Murmeln in der Urne natürlich auch eine Teilmenge der Murmeln bilden), und sie ist abgeschlossen bezüglich Komplementbildung (die Murmeln, die nicht zu einer Teilmenge A gehören, bilden selbst die Teilmenge "AC") und Vereinigung (zwei Teilmengen zusammengenommen bilden die Teilmenge "A∪B"). Denken Sie jetzt bei P(A) einfach an die relative Anzahl der Murmeln in A. Dies ist eine mathematische Funktion, weil sie jeder Murmelmenge eine reelle Zahl zuordnet. Darüber hinaus kann man sich leicht davon überzeugen, dass es sich bei der Funktion P um eine Wahrscheinlichkeit handelt, da sie allen drei Kolmogorovschen Axiome genügt. Übrigens erfüllen viele Messgrößen, die per se nichts mit Wahrscheinlichkeit zu tun haben, auch die Kolmogorovschen Axiome: normalisierte Massen, Längen, Flächen und Inhalte. Universitätsklinikum Schleswig-Holstein ©2012 9 Beim Würfelspiel, dem Standardbeispiel zur Erläuterung abstrakter wahrscheinlichkeitstheoretischer Prinzipien, entspricht Ω der Menge der ganzen Zahlen zwischen 1 und 6. ∆ ist wieder die Familie aller Teilmengen von Ω, und die Elemente von ∆, d.h. die Teilmengen von Ω, werden von nun an "Ereignisse" genannt. Die Teilmenge {1,3,5} entspricht also z.B. dem Ereignis "ungerade Augenzahl", die Teilmenge {5,6} ist das Ereignis "mindestens 5 Punkte". Für eine gegebene Teilmenge A definieren wir P(A) wie zuvor als die relative Anzahl der Elemente in A. Dies bedeutet P({1,3,5})=1/2 und P({5,6})=1/3. Universitätsklinikum Schleswig-Holstein ©2012 10 Viele wahrscheinlichkeitstheoretische Zusammenhänge werden leichter verständlich, wenn man bei Ereignissen an Flächen und bei den Wahrscheinlichkeiten von Ereignissen an die Inhalte von Flächen denkt. Dies ist die so genannte "maßtheoretische" Sichtweise der Wahrscheinlichkeit. Stellt man sich die Ereignisse A und B also als zwei Flächen eines Venn-Diagramms vor, so entspricht das Eintreten von mindestens einem der beiden Ereignisse der Vereinigung dieser Flächen, d.h. A∪B. Das gleichzeitige Eintreten von A und B entspricht der Überlappung beider Flächen, d.h. der Schnittmenge A∩B . Das Ereignis AC (das Gegenteil, oder "Komplement", von A) entspricht dem Teil der Gesamtfläche (d.h. Ω), der nicht mit A überlappt. Mit dieser Interpretation im Hinterkopf lassen sich die beiden kleinen Theoreme im unteren Teil der vorliegenden Folie leicht verstehen. Der Inhalt der Fläche A∪B ist gleich der Summe der Inhalte von A und B abzüglich des Inhalts von A∩B, der ja zweimal aufaddiert wurde. Wenn der Inhalt von Ω eins beträgt (wie vom 2. Kolmogorovschen Axiom gefordert), dann beläuft sich der Inhalt dessen, was nicht zu A gehört, auf eins minus den Inhalt von A. Universitätsklinikum Schleswig-Holstein ©2012 11 Zwei Ereignisse heißen "stochastisch unabhängig", wenn die Wahrscheinlichkeit für ihr gleichzeitiges Eintreten gleich dem Produkt der beiden Einzelwahrscheinlichkeiten ist. Nehmen wir z.B. einmal an, dass das Geschlechterverhältnis unter Studenten 1:1 beträgt, und dass die Geburtstage von Studenten gleichmäßig über die Wochentage verteilt sind. In diesem Fall beträgt die Wahrscheinlichkeit dafür, dass als nächstes ein weibliches Sonntagskind den Hörsaal betritt, 1/2 mal 1/7, also 1/14. Dies ist die eine Richtung, in der das Konzept der stochastischen Unabhängigkeit verwendet wird, nämlich auf Grund wissenschaftlicher Evidenz oder gesunden Menschenverstands die Unabhängigkeit von Ereignissen vorauszusetzen und die Wahrscheinlichkeit für ihr gleichzeitiges Eintreten durch Produktbildung zu berechnen. In der wissenschaftlichen Forschung wird dieser logische Zusammenhang jedoch oftmals umgedreht. Viele Experimente widmen sich nämlich gezielt der Frage, ob zwei Zufallsereignisse in einem Zusammenhang miteinander stehen oder nicht. Die Unabhängigkeit der fraglichen Ereignisse wird dann aus der Tatsache gefolgert, dass die (geschätzte) Wahrscheinlichkeit ihres gemeinsamen Eintretens mit dem Produkt der (geschätzten) Einzelwahrscheinlichkeiten übereinstimmt. Universitätsklinikum Schleswig-Holstein ©2012 12 Der Zusammenhang zwischen Bluthochdruck und erhöhten Blutfettwerten kann aus der Tatsache geschlossen werden, dass dreimal mehr US-Amerikaner an beiden Gesundheitsproblemen leiden, als "durch Zufall zu erwarten wäre". Formal heißt dies, dass die empirisch geschätzte Wahrscheinlichkeit dafür, dass eine zufällig gezogene Person gleichzeitig hypertensiv und hyperlipidämisch ist (also 0.17), dreimal größer ist als das Produkt der beiden Einzelwahrscheinlichkeiten (nämlich 0.25⋅0.20=0.05). Universitätsklinikum Schleswig-Holstein ©2012 13 Das formale Konzept der Zufallsvariablen ist mathematisch kompliziert und ohne wahrscheinlichkeitstheoretisches Hintergrundwissen kaum zu verstehen. Im Kontext der Diskussion wissenschaftlicher Methodik reicht es jedoch aus, in Zufallsvariablen einen Kunstgriff zu sehen, der die Bezugnahme auf noch nicht eingetretene Zufallsereignisse erleichtert. In gewisser Weise sind Zufallsvariable Platzhalter für Ereignisse, die entweder antizipiert werden oder vielleicht auch niemals eintreten, die es aber trotzdem Wert sind, dass man sich Gedanken über sie macht. Wenn wir z.B. an der Rate interessiert sind, mit der fünf bestimmte Würfel eine 6 zeigen, dann könnten wir uns auf das Ergebnis eines einzigen Wurfes etwa wie folgt beziehen: "... der erste Würfel, der 50 Millisekunden vor dem zweiten Würfel die Oberfläche der Tischs erreichte, zeigte keine 6, während der zweite Würfel, der 7.5 mm neben dem ersten Würfel zum Liegen kam, eine 6 zeigte, was jedoch für den dritten Würfel nicht der Fall war, der ...". Warum sich das Leben so schwer machen? Bezeichnen wir doch die Anzahl der Würfel, die eine 6 zeigen, einfach mit "X" und den uns interessierenden möglichen Ausgang mit "X=2". Das komplizierte Muster roter Holzwürfel, dass wir später auf dem Tisch zu sehen bekommen, nennen wir dann eine "Realisierung" der Zufallsvariablen X. Universitätsklinikum Schleswig-Holstein ©2012 14 Die Realisierungen von Zufallsvariablen sind zufällige Ereignisse. Daher macht es Sinn, etwa die folgende Frage zu stellen: "Mit welcher Wahrscheinlichkeit nimmt X den Wert 2 an?", oder knapper formuliert: "Wie groß ist P(X=2)?". Die Funktion f(a), die jedem möglichen Ausgang "a" einer Realisierung von X die Wahrscheinlichkeit P(X=a) zuordnet, heißt die "Wahrscheinlichkeitsfunktion" von X. Die Wahrscheinlichkeitsfunktion spezifiziert die so genannte "Verteilung" der Zufallsvariablen, und damit ihre gesamte stochastische Natur. Universitätsklinikum Schleswig-Holstein ©2012 15 Der Binomialverteilung liegt das am häufigsten verwendete Modell für binäre Zufallsvariable zu Grunde, d.h. für Zufallsvariable, die nur zwei mögliche Werte annehmen können (z.B. "männlich", "weiblich"). In der Definition der Wahrscheinlichkeitsfunktion steht der Term πk⋅(1-π)n-k als Abkürzung für π⋅π⋅π...{k mal}⋅(1-π)⋅(1-π)⋅(1-π)...{n-k mal}. Die Produktbildung rührt von der Unabhängigkeit der n Wiederholungen her. In jeder Wiederholung beobachtet man entweder einen Erfolg (mit Wahrscheinlichkeit π) oder einen Misserfolg (mit Wahrscheinlichkeit 1-π); gesucht ist die Wahrscheinlichkeit für k Erfolge und n-k Misserfolge. Der merkwürdige Binomialkoeffizient ist erforderlich, da die Reihenfolge der Erfolge und Misserfolge für das Ergebnis nicht relevant ist. Universitätsklinikum Schleswig-Holstein ©2012 16 Ist z.B. n=5 und k=3, dann muss man bei der Berechnung von f(3) neben dem Term π⋅(1-π)⋅π⋅(1-π)⋅π auch den Term (1-π)⋅π⋅π⋅(1-π)⋅π und alle anderen Produkte berücksichtigen, die drei π's und zwei (1-π)'s enthalten. Aber wie viele solcher Produkte gibt es? Die Antwort liefert der Binomialkoeffizient. Für die Auswahl der ersten Position bestehen offensichtlich 5 Möglichkeiten, danach 4 Möglichkeiten für die zweite Position und 3 Möglichkeiten für die dritte. Insgesamt gibt es also 5⋅4⋅3=60 Auswahlmöglichkeiten, von denen sich viele aber nur hinsichtlich der Reihenfolge der ausgewählten Positionen unterscheiden. So ist z.B. die Auswahl 1-2-3 ebenso in den 60 Möglichkeiten enthalten wie die Auswahl 3-2-1. Um für dieses mehrfache enthalten Sein zu korrigieren, müssen wir 60 durch die Anzahl der Auswahlmöglichkeiten teilen, die jeweils äquivalent zueinander sind, d.h. die gleiche Positionen enthalten und sich nur hinsichtlich der Reihenfolge dieser Positionen unterscheiden. Diese Zahl entspricht offensichtlich der Anzahl der möglichen Reihenfolgen (Permutationen) von 3 verschiedenen Positionen, die wiederum 3!=3⋅2⋅1=6 (oder allgemein k!) beträgt. Universitätsklinikum Schleswig-Holstein ©2012 17 Universitätsklinikum Schleswig-Holstein ©2012 18 Universitätsklinikum Schleswig-Holstein ©2012 19 Stetigen Zufallsvariablen liegt die gleiche Idee zu Grunde wie diskreten Zufallsvariablen. Für stetige Zufallsvariable macht jedoch die Angabe einer Wahrscheinlichkeitsfunktion normalerweise keinen Sinn. Wenn X für den BMI eines zufällig ausgewählten Mannes aus Ihrer Heimatstadt steht, dann ist es sinnlos, nach der Wahrscheinlichkeit zu fragen, mit der dieser BMI genau 22.5 beträgt. Die Antwort ist "null", und für jede andere stetige Zufallsvariable von praktischem Interesse wird es genauso sein. Statt durch eine Wahrscheinlichkeitsfunktion wird die Verteilung einer stetigen Zufallsvariablen durch deren "Verteilungsfunktion" spezifiziert. Für jede reelle Zahl b gibt die Verteilungsfunktion F(b) an, mit welcher Wahrscheinlichkeit X Werte annimmt, die kleiner oder gleich b sind, d.h. F(b)=P(X≤b). Universitätsklinikum Schleswig-Holstein ©2012 20 Da Verteilungsfunktionen Wahrscheinlichkeiten angeben, liegen ihr Werte immer zwischen 0 und 1. Dies folgt unmittelbar aus dem 1. und 2. Kolmogorovschen Axiom. Wenn eine reelle Zahl b1 kleiner ist als eine andere Zahl b2, dann folgt aus dem Eintreten des Ereignisses X≤b1 stets auch das Eintreten des Ereignisses X≤b2. Daher gilt P(X≤b1)≤P(X≤b2) für alle Paare von reellen Zahlen, die b1<b2 erfüllen, d.h. jede Verteilungsfunktion ist monoton wachsend. Universitätsklinikum Schleswig-Holstein ©2012 21 In der Praxis wird die Verteilungsfunktion einer stetigen Zufallsvariablen meistens durch das Integral der so genannten "Dichtefunktion" (oder kurz "Dichte") definiert. Eine Dichte ist eine nicht-negative Funktion (d.h. f(x)≥0 für alle x, was zur Erfüllung des 1. Kolmogorovschen Axioms erforderlich ist), für die die Gesamtfläche unter der Kurve gleich eins ist (2. Kolmogorovsches Axiom). Das Integral zwischen -∞ ("minus unendlich") und b entspricht der Fläche, die von der Kurve f(x) selbst, der X-Achse und einer vertikalen Linie bei b eingeschlossen wird. Umgangssprachlich kann man daher sagen, dass die Wahrscheinlichkeit, mit der X Werte kleiner oder gleich b annimmt, der "Fläche unter der Dichte links von b" entspricht. Ebenso ergibt sich die Wahrscheinlichkeit, dass X Werte zwischen zwei reellen Zahlen a und b annimmt, aus der "Fläche unter der Dichte zwischen a und b". Universitätsklinikum Schleswig-Holstein ©2012 22 Zwei Zufallsvariable X und Y heißen "stochastisch unabhängig", wenn die beiden Ereignisse "X nimmt Werte kleiner oder gleich a an" und "Y nimmt Werte kleiner oder gleich b an" für jedes Paar reeller Zahlen a und b stochastisch unabhängig voneinander sind. Universitätsklinikum Schleswig-Holstein ©2012 23 Universitätsklinikum Schleswig-Holstein ©2012 24 Der Erwartungswert E(X) einer quantitativen Zufallsvariablen X ist der Wert, der bei einer Realisierung von X im Durchschnitt zu erwarten ist. Zu seiner Berechnung wird jeder mögliche Wert von X mit seiner Eintrittswahrscheinlichkeit bzw. Dichte gewichtet, und die gewichtete Summe (diskrete Zufallsvariable) bzw. das Integral (stetige Zufallsvariable) über alle möglichen Werte gebildet. Ähnlich dem Stichprobenmittel aus der deskriptiven Statistik, das die Lage der Daten einer Stichprobe misst, gibt der Erwartungswert die erwartete Lage eines einzelnen (zukünftigen) Datenpunkts an ("Wo wird die nächste Realisierung von X im Durchschnitt liegen?"). Universitätsklinikum Schleswig-Holstein ©2012 25 Dieses Beispiel verdeutlicht sehr schön, dass der Erwartungswert einer Zufallsvariablen nicht notwendigerweise ein real möglicher Wert sein muss. Kein normaler Würfel kann 3.5 Punkte zeigen, aber die Augenzahl wird eben ungefähr bei 3.5 liegen (und nicht bei 1256.6 oder -5.9). Beachten Sie, dass auch der Mittelwert einer Stichprobe ein Wert sein kann, der in der Stichprobe selbst gar nicht beobachtet wurde, oder der vielleicht sogar unmöglich ist. Universitätsklinikum Schleswig-Holstein ©2012 26 Das "Gesetz der Großen Zahlen" ist ein wichtiges Theorem der Wahrscheinlichkeitstheorie und liefert gleichzeitig eine sehr anschauliche Interpretation des Erwartungswertes. Nehmen wir an, wir antizipieren nicht nur eine Realisierung der Zufallsvariablen X, sondern sehr viele, sagen wir n Realisierungen. Der Durchschnitt dieser Realisierungen wäre selbst wieder die Realisierung einer (neuen) Zufallsvariablen. Das Gesetz der großen Zahlen besagt nun, dass der Durchschnitt der Realisierungen von X für hinreichend großes n nahezu konstant und kaum mehr zufällig oder variabel ist. Der Wert, dem sich der Durchschnitt für immer größeres n annähert, ist E(X). Der Erwartungswert einer Zufallsvariablen X kann also als das Stichprobenmittel interpretiert werden, dass man bekommen würde, wenn man X sehr, sehr (eigentlich unendlich) oft realisiert (d.h. beobachtet). Der Erwartungswert des BMI eines zufällig ausgewählten Mannes aus Ihrer Heimatstadt ist also der durchschnittliche BMI aller dort lebenden Männer. Universitätsklinikum Schleswig-Holstein ©2012 27 Diese Abbildung veranschaulicht das Gesetz der Großen Zahlen am Beispiel des Würfelspiels. Jeder Punkt steht für die durchschnittliche Augenzahl aus n=10 (linke Spalte), n=100 (mittlere Spalte) bzw. n=500 (rechte Spalte) Würfen eines einzelnen Würfels. Jede Spalte enthält 100 Punkte, die 100 Wiederholungen des gleichen Spiels entsprechen. Wie man sieht, liegen alle Punkte in der Nähe des Erwartungswertes für die Augenzahl eines einzelnen Wurfes, nämlich 3.5. Mit wachsendem n streuen die Punkte aber zunehmend weniger, und schon für n=500 Würfe liegen alle 100 Durchschnitte fast konstant bei 3.5. Universitätsklinikum Schleswig-Holstein ©2012 28 Die Varianz Var(X) einer Zufallsvariablen X ist der Erwartungswert einer Transformation von X, nämlich der Zufallsvariablen [X-E(X)]2. Diese neue Zufallsvariable entsteht, indem man von X zunächst den Erwartungswert E(X) subtrahiert. Diese Subtraktion nennt man "Zentralisierung", weil sie zur Folge hat, dass die Realisierungen der Transformation nun um den Wert null streuen. Anschließend wird die Differenz quadriert, so dass die Varianz mehr Gewicht auf große Abweichungen zwischen X-E(X) und null, d.h. zwischen X und E(X), legt. Die Wurzel aus der Varianz von X wird als Standardabweichung von X bezeichnet. Wie im Fall des Erwartungswertes so nähert sich auch bei der Standardabweichung der empirisch beobachtete Wert in einer Stichprobe von sehr vielen Realisierungen von X dem hier definierten, theoretischen Wert an. Die Standardabweichung des BMI eines zufällig ausgewählten Mannes aus Ihrer Heimatstadt entspricht also der Standardabweichung des BMI unter allen dort lebenden Männern. Universitätsklinikum Schleswig-Holstein ©2012 29 Universitätsklinikum Schleswig-Holstein ©2012 30 Universitätsklinikum Schleswig-Holstein ©2012 31 Wenn X und Y Zufallsvariable sind, dann ist natürlich auch X+Y eine Zufallsvariable (ebenso X⋅Y, X/Y, Y/X usw.). Wenn X also z.B. für das Jahreseinkommen eines männlichen Ehepartners steht, und Y für das Jahreseinkommen des weiblichen Partners, so bezeichnet X+Y das jährliche Familieneinkommen. Wenn X eine Zufallsvariable ist und α eine reelle Zahl, dann ist auch α⋅X eine Zufallsvariable. Bezeichnet X z.B. das Gewicht eines zufällig ausgewählten Mannes in Kilogramm, so steht 2.2⋅X für das Gewicht gemessen in imperialen Pfund. Universitätsklinikum Schleswig-Holstein ©2012 32 Die wichtigste Verteilung stetiger Zufallsvariabler ist die so genannte "Normalverteilung". Eine Zufallsvariable heißt "normalverteilt", wenn ihre Verteilung durch die auf der Folie angegebenen Dichte f(x) spezifiziert wird. Die Normalverteilung wird oft auch "Gaußverteilung" genannt zu Ehren des deutschen Mathematikers Carl Friedrich Gauß (1777-1855), der viele ihrer Eigenschaften entdeckte, sie aber nicht "erfunden" hat (eine Leistung, die um 1720 durch den englischen Mathematiker Abraham de Moivre vollbracht wurde). Gauß, der zu Recht als einer der größten Mathematiker (wenn nicht sogar "der" größte) aller Zeiten gilt, wurde in Deutschland vor Einführung des Euros durch Abdruck seines Konterfeis auf der 10 DM-Note gewürdigt. Universitätsklinikum Schleswig-Holstein ©2012 33 Eine ganz besondere Verteilung ist die N(0,1)-Verteilung, also jene Normalverteilung, für die µ=0 und σ2=1 gilt. Sie wird als "StandardNormalverteilung" bezeichnet, und ihre Verteilungsfunktion Φ(z) ist in allen gängigen Statistiklehrbüchern tabelliert. Wie wir später noch sehen werden, ist auf der vorliegenden Folie ein praktisch höchst relevanter Wert der Verteilungsfunktion der Standard-Normalverteilung markiert, nämlich Φ(1.96)=0.975. Universitätsklinikum Schleswig-Holstein ©2012 34 Die Verteilungsfunktion einer Normalverteilung kann nicht "zu Fuß" durch Integrieren der Dichte berechnet werden. Auf der anderen Seite ist es aber nicht möglich, F(b) für jede denkbare Kombination von Erwartungswert µ und Varianz σ2 zu tabellieren. Glücklicherweise ist dies auch gar nicht notwendig, da sich die Verteilungsfunktion F(b) einer beliebigen Normalverteilung sehr einfach aus der Verteilungsfunktion Φ(z) der Standard-Normalverteilung gewinnen lässt. Universitätsklinikum Schleswig-Holstein ©2012 35 Universitätsklinikum Schleswig-Holstein ©2012 36 Dies ist eine graphische Darstellung der Standard-Normalverteilung. Die Dichte jeder Normalverteilung ist symmetrisch um ihren Erwartungswert (in diesem Fall die Null) und weist die typische Glockenform auf. Die blau markierte Fläche beträgt 0.68, was bedeutet, dass eine Zufallsvariable mit N(0,1)-Verteilung mit Wahrscheinlichkeit 0.68 Werte zwischen +1 und -1 annimmt. Die Werte x=+1 und x=-1 markieren die Wendepunkte der Dichte f(x). Wenn man mit dem Auto entlang der Dichtekurve fahren würde, wären dies die beiden Punkte, an denen das Lenkrad wieder genau in der Geradeausposition steht. Die Wendepunkte der Dichte einer allgemeinen Normalverteilung N(µ,σ2) liegen bei µ-σ und µ+σ, und die Fläche zwischen diesen beiden Werten beträgt ebenfalls 0.68. Universitätsklinikum Schleswig-Holstein ©2012 37 Wegen der Symmetrie ihrer Dichte nimmt eine normalverteilte Zufallsvariable Werte unterhalb (bzw. oberhalb) ihres Erwartungswertes genau mit Wahrscheinlichkeit 0.5 an. Universitätsklinikum Schleswig-Holstein ©2012 38 Etwa 95% der Masse einer N(0,1)-Verteilung befindet sich zwischen -1.96 und +1.96. Mit anderen Worten beträgt die Wahrscheinlichkeit für Realisierungen außerhalb dieses Bereichs gerade einmal 1-0.95=0.05. Universitätsklinikum Schleswig-Holstein ©2012 39 Etwa 95% der Masse einer N(0,1)-Verteilung liegt links von 1.65 und, wegen der Symmetrie, rechts von -1.65. Universitätsklinikum Schleswig-Holstein ©2012 40 Die blaue vertikale Linie markiert den Erwartungswert µ, die roten Linien befinden sich jeweils an den Wendepunkten µ-σ und µ+σ. Wie man sieht, führt eine Veränderung von µ zu einer Verschiebung der Dichte nach links (Verkleinerung von µ) oder rechts (Erhöhung von µ); die Form der Dichte bleibt unverändert. Eine Veränderung von σ2 streckt (Erhöhung von σ2) oder staucht (Verringerung von σ2) die Dichte, ohne deren Position zu verändern. Universitätsklinikum Schleswig-Holstein ©2012 41 Der "Zentrale Grenzwertsatz" ist eines der bemerkenswertesten Resultate der Wahrscheinlichkeitstheorie. Er besagt nämlich, dass der Mittelwert einer großen Anzahl unabhängiger Realisierungen ein und der selben Zufallsvariablen nach geeigneter Zentralisierung und Standardisierung annähernd einer StandardNormalverteilung folgt. Außerdem verbessert sich diese Approximation, wenn die Anzahl der Realisierungen steigt. Der Zentrale Grenzwertsatz ist das Herzstück der Wahrscheinlichkeitstheorie. Universitätsklinikum Schleswig-Holstein ©2012 42 Das Galton-Brett (auch als "Quincunx" oder "bean machine" bekannt) wurde nach dem englischen Wissenschaftler Sir Francis Galton benannt. Es besteht aus einem Nagelgitter, das für hindurchrollende Kugeln auf dem Weg von oben nach unten einen Zufallspfad erzeugt. Jedes mal, wenn eine Kugel einen Nagel trifft, kann sie mit gleicher Wahrscheinlichkeit nach links oder rechts fallen. Wenn unter jedem Durchlass in der untersten Nagelreihe ein kleiner Glasbehälter angebracht wird, und wenn die Anzahl der Kugeln groß genug ist, dann nähert sich das Balkendiagramm der aufgefangenen Kugeln rasch einer Normalverteilung an. Universitätsklinikum Schleswig-Holstein ©2012 43 Das Histogramm zeigt eine Stichprobe von 100 durchschnittlichen Augenzahlen, jeweils gebildet aus jeweils 500 Würfen eines einzelnen Würfels. Das Histogramm hat zwar schon ein etwas glockenförmiges Aussehen, die Approximation ist aber noch nicht besonders gut. Universitätsklinikum Schleswig-Holstein ©2012 44 Der Zentrale Grenzwertsatz erklärt, warum so viele natürliche Phänomene, die auf der Aggregation kleiner unabhängiger Effekte basieren, eine glockenförmige Verteilung aufweisen. Allerdings ist gerade für den IQ eine Normalverteilung nicht zu erwarten, es sei denn, der zur Messung verwendete Test wurde speziell im Hinblick darauf entworfen. Die genaue Form der Verteilung des IQ hängt von der durchschnittlichen Schwere der Testfragen und von deren Beziehungen untereinander ab. Der Zentrale Grenzwertsatz gilt nicht für abhängige Zufallsvariable, und die vielen Abhängigkeiten in gängigen IQ-Tests bedeuten, dass die Verteilung des IQ viele verschiedene Formen annehmen kann. Das 1994 von Herrnstein und Murray veröffentlichte Buch "The Bell Curve" behauptet, dass der IQ ein starker Prädiktor vieler sozialer Übel sei, einschließlich Verbrechen. Es nutzt diese "wissenschaftliche Gegebenheit", um sich gegen soziale Wohlfahrtsprogramme zu wenden und insbesondere um die Bestrafung von Tätern zu rechtfertigen. Durch das von ihnen gezeichnete Bild eines Täters, der durch kognitive Nachteile in das Verbrechen getrieben wurde, verschleiern die Autoren die Existenz weitaus stärkerer Risikofaktoren, für die es zudem wirksam korrigierende Interventionen gibt. Universitätsklinikum Schleswig-Holstein ©2012 45 Universitätsklinikum Schleswig-Holstein ©2012 46