(c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Diskrete Wahrscheinlichkeitsverteilungen Worum geht es in diesem Modul? Zufallsvariablen Wahrscheinlichkeitsverteilungen Maßzahlen theoretischer Verteilungen Eigenschaften von Erwartungswert und Varianz Tschebyschev-Ungleichung Worum geht es in diesem Modul? Merkmale oder Variablen spielen eine zentrale Rolle im Bereich der deskriptiven Statistik. Dieser Bedeutung entsprechend sind sie auch im Rahmen der Wahrscheinlichkeitsrechnung besonders wichtig. Zu der einfachen Zuordnungsvorschrift kommt hier der Zufallscharakter der Beobachtung hinzu. Dies führt zu dem Begriff der Zufallsvariablen. Mit Zufallsvariablen lassen sich Ereignisse einfach beschreiben. Die grundlegenden Ereignisse führen dann auch zu theoretischen Gegenstücken der empirischen Verteilungen, den Wahrscheinlichkeits- und Verteilungsfunktionen. Weiterhin werden theoretische Maßzahlen der Lage und Streuung sowie des Zusammenhanges als theoretische Gegenstücke von arithmetischem Mittel und Varianz eingeführt. Zufallsvariablen Wir betrachten zum Einstieg als Zufallsexperiment eine Untersuchung einer Fachbibliothek über das Ausleihverhalten der Studierenden einer Universität. Die Bibliothek notiert dazu für zufällig ausgewählte Besucher die Anzahl der jeweils von diesen Besuchern ausgeliehenen Büchern. Die Variable = "Anzahl der ausgeliehenen Bücher" hat die Realisationsmöglichkeiten 0,1,2,3,.....,10. Mehr als 10 Bücher dürfen von einer Person nicht ausgeliehen werden. Null ausgeliehene Bücher sind natürlich bei ausschließlichem Besuch des Lesesaals ebenfalls möglich. Durch die verschiedenen Werte von werden nun Ereignisse festgelegt, indem durch eben diese Werte Teilmengen der Grundgesamtheit aller Studierenden bestimmt sind. Page 1 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Als ein lässt sich beispielsweise " nimmt den Wert 3 an" formulieren. Dieses Ereignis tritt genau dann ein, wenn eine Person mit drei ausgeliehenen Büchern ausgewählt wird. In diesem Sinn ist also der Wert von zufällig. Allgemein ist eine Zufallsvariable eine Variable, die jedem möglichen Ergebnis eines Zufallsexperimentes eine Zahl zuordnet. Das durch eine Zufallsvariable wird als " nimmt den Wert bestimmte Ereignis an" bezeichnet. Dafür wird es ist also Ereignis, dass . Analog ist einen Wert annimmt, welcher höchstens so groß ist wie Entsprechend lassen sich weitere Ereignisse angeben. In unserem Eingangsbeispiel der ausgeliehenen Bücher sind etwa: Page 2 geschrieben; das . (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Weitere einfache Beispiele für Zufallsvariablen sind: - Die Augenzahl beim Würfeln. - Die Anzahl der Kraftfahrzeuge, die in einem festgelegten Zeitabschnitt durch eine Straße fahren. Wahrscheinlichkeitsverteilungen Definition von Wahrscheinlichkeits- und Verteilungsfunktion Bei empirischen Datensätzen fassen wir die Verteilung der Beobachtungen durch die bzw. durch die zusammen. Die Wahrscheinlichkeit für ein Ereignis der Form gibt die Chance an, dass der entsprechende Wert beobachtet wird. Diese Wahrscheinlichkeit ist gewissermaßen eine potenzielle relative Häufigkeit. Daher ist es nahe liegend, von einer Wahrscheinlichkeitsverteilung zu sprechen, die durch die Zuordnung der Wahrscheinlichkeiten zu den einzelnen Werten bzw. durch die Funktion Die Zufallsvariable von gegeben ist. habe die Realisationsmöglichkeiten Wahrscheinlichkeitsfunktion der Zufallsvariablen . Die ist definiert durch: Die zugehörige theoretische Verteilungsfunktion der Zufallsvariablen In der Regel wird ist . nur für die Realisationsmöglichkeiten angegeben. Für wird auch kurz geschrieben. Eigenschaften von Wahrscheinlichkeits- und Verteilungsfunktion Die Angabe der Wahrscheinlichkeitsverteilung mittels Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion sind für Zufallsvariablen mit höchstens abzählbar vielen Realisationsmöglichkeiten gleichwertig. Das sei an einem einfachen Beispiel illustriert. Wird eine Ein-Euro-Münze dreimal geworfen und notiert, ob die Zahl-Seite oder die Symbol-Seite nach oben zu liegen kommt, so gibt es folgende Möglichkeiten für die Zufallsvariable = "Anzahl der Zahl-Seiten": Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Nur die Realisationsmöglichkeiten mit den zugehörigen Wahrscheinlichkeiten sind angegeben. Für andere ist ja Auch braucht nur für die Realisationsmöglichkeiten angegeben zu werden. Die anderen Werte erhalten wir damit zu Es ist offensichtlich, wie aus und umgekehrt zu gewinnen ist. Allgemein gilt: Als formale Eigenschaften halten wir fest: (1) nimmt nur Werte zwischen 0 und 1 an, d.h. es ist . (2) steigt für wachsendes monoton an, d.h. es gilt Darstellung von Wahrscheinlichkeits- und Verteilungsfunktion Die Darstellung der theoretischen Verteilungsfunktion und der Page 4 aus (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsfunktion geschieht einfach entsprechend der empirischen Situation als Treppenfunktion und Stabdiagramm. Titel: Wahrscheinlichkeits- und Verteilungsfunktion "Anzahl Zahlseiten" bei drei Münzwürfen Quelle: Eigene Berechnungen Zufallsvariablen im Gleichmöglichkeitsmodell Gegeben sei eine endliche Grundgesamtheit mit Elementen. Das Merkmal habe die Realisationsmöglichkeiten . Die Wahrscheinlichkeitsfunktion der Zufallsvariablen bzgl. des Gleichmöglichkeitsmodells ist dann gerade die Häufigkeitsfunktion von in der Grundgesamtheit, wenn die Anzahl der Elemente in der Grundgesamtheit bezeichnet, bei denen das Merkmal den Wert annimmt: . Hamburger Würfelbude Quelle: K.Lange (1980): Zahlenlotto; Ravensburg, Otto Maier Verlag Die Hamburger Würfel-Bude hat folgenden Gewinnplan: Der Einsatz beträgt zwei Euro. Bei einmaligem Werfen mit einem Würfel erhalten wir Augenzahl Auszahlung 6 4 Euro 1 3 Euro 3 Freispiel Bestimmen Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Zufallsvariablen "Auszahlung" für den Fall, dass nur ein Freispiel möglich ist, d.h. Sie dürfen bei der zweiten Drei nicht mehr weiterwürfeln. Stellen Sie diese Funktionen grafisch dar. Link zur Lösung ( : b6b.pdf ) Maßzahlen theoretischer Verteilungen Die Wahrscheinlichkeiten für Ereignisse haben wir als potenzielle relative Häufigkeiten bezeichnet. Damit kann die analog zum gebildete Maßzahl als "potenzielles arithmetisches Mittel" bezeichnet werden. Wie ist aber zu interpretieren? Betrachten wir dazu die stark vereinfachte Situation einer Versicherung, bei der nur eine begrenzte Anzahl von Schäden mit zugehörigen Wahrscheinlichkeiten auftreten können. Schadenshöhe Wahrscheinlichkeit 0 0.984 1000 0.010 2000 0.003 Page 5 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen 3000 0.002 4000 0.001 Bei Zugrundelegung dieser Schadensverteilung wird die Versicherung bei insgesamt 1000 Verträgen mit folgendem Geschehen rechnen müssen: Erwartete Anzahl von Schäden bei Schadenshöhe 1000 Verträgen Gesamtschaden 984 0 0 10 1000 10000 3 2000 6000 2 3000 6000 1 4000 4000 Insgesamt sind es also 26000 Euro, die voraussichtlich zur Schadensdeckung nötig werden. Wird dieser erwartete Schaden gleichmäßig auf alle Verträge verteilt, so sind pro Vertrag 26 Euro einzukalkulieren, um den erwarteten Gesamtschaden abzudecken. Dies ist der erwartete Schaden pro Vertrag. Die Überlegung basiert darauf, dass bei einer großen Anzahl von Versuchsdurchführungen die relativen Häufigkeiten der einzelnen Realisationen der interessierenden Variablen in etwa mit den Wahrscheinlichkeiten übereinstimmen. Das Resultat ist eine Maßzahl, die angibt, mit welchem Wert wir im Durchschnitt zu rechnen haben, welchen Wert wir erwarten. Ein gleichartiges Vorgehen führt zur theoretischen Varianz als Gegenstück zur . Definition von Erwartungswert und Varianz Für eine Zufallsvariable mit den Realisationsmöglichkeiten zugehörigen Wahrscheinlichkeiten wird der Lageparameter der Wahrscheinlichkeitsverteilung, das potenzielle arithmetische Mittel, als Erwartungswert bezeichnet, i.Z.: Die theoretische Varianz ist Page 6 und den (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen und die theoretische Standardabweichung ist die Wurzel aus der Varianz: Für die vereinfachte Versicherungssituation erhalten wir mit dem bereits bekannten Wert : 0 0.984 665.184 1000 0.010 9486.760 2000 0.003 11690.028 3000 0.002 17689.352 4000 0.001 15792.676 55324.000 Wieder ist die Standardabweichung die eigentliche Maßzahl zur Beurteilung der Streuung. Hier ist Je geringer die Standardabweichung ist, desto eher werden sich die Durchschnittswerte der einzelnen Schäden bei 26 Euro befinden. Die Hamburger Würfelspiel-Bude hat folgenden Gewinnplan: Der Einsatz beträgt zwei Euro; bei einmaligem Werfen mit einem Würfel gibt es: Augenzahl Auszahlung 6 4 Euro 1 3 Euro 3 Freispiel Welche Auszahlung können Sie erwarten, wenn nur ein Freispiel möglich ist, d.h. Sie dürfen bei der zweiten Drei nicht mehr weiterwürfeln? Wie groß ist dann die Standardabweichung? Interpretieren Sie die beiden Maßzahlen im Hinblick auf viele Spiele! Page 7 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Link zur Lösung ( : d10.pdf ) Eigenschaften von Erwartungswert und Varianz Die wichtigsten Eigenschaften der beiden theoretischen Maßzahlen spiegeln die Eigenschaften der entsprechenden empirischen Maßzahlen, dem arithmetischen Mittel und der empirischen Varianz, wider: Der Erwartungswert einer Lineartransformation ist also gleich dem linear transformierten Erwartungswert. Bei der Varianz verändert eine Verschiebung nichts; die Multiplikation mit einem Faktor verändert die Varianz in der Weise, dass der Faktor quadratisch herausgezogen wird. Dies ist vernünftig, ergibt es doch für die Standardabweichung die Relation . Über die Beziehung lässt sich die Varianz häufig einfacher berechnen. Standardisierte Zufallsvariablen Wir können vermuten, dass Verteilungen von Zufallsvariablen mit und zueinander ähnlich sind. Wir führen daher eine besondere Bezeichnung ein: Eine Zufallsvariable heißt standardisiert, wenn ihr Erwartungswert den Wert 0 und ihre Standardabweichung den Wert 1 haben. Durch eine einfache Transformation kann jede Zufallsvariable mit in eine standardisierte Zufallsvariable transformiert werden. Die Transformation wird als Standardisierung bezeichnet: . Generell gilt, dass der IQ in der Normalbevölkerung eine Verteilung besitzt mit und Neue Intelligenztests müssen zur Herstellung der Vergleichbarkeit auf diese Normen gebracht werden. Bei einem neuen Test beträgt nun der Erwartungswert und die Varianz Wie muss die Variable transformiert werden, damit die Ergebnisse vergleichbar werden? Link zur Lösung ( : d66.pdf ) Tschebyschev-Ungleichung Bei empirischen Verteilungen gibt die Standardabweichung an, wie stark die Werte um den Mittelwert des Merkmals streuen. Bei einer kleinen Streuung haben wir weniger große Abweichungen vom Mittelwert als bei einer größeren Streuung. Dies drückt auch die empirische Variante der Tschebyschev-Ungleichung aus. Titel: P.L. Tschebyschev, 1821-1894 Quelle: Bartth, F. und Haller, R. (1985): Stochastik; München: Ehrenwirth Verlag Die theoretische Version der Tschebyschev-Ungleichung erfasst nun, dass wir bei einer kleinen Streuung seltener eine große Abweichung vom Erwartungswert beobachten werden als bei einer größeren Streuung. Für eine Zufallsvariable mit Erwartungswert und Varianz gilt bei beliebigem die Page 8 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Tschebyschev-Ungleichung Die Tschebyschev-Ungleichung gibt eine Mindestwahrscheinlichkeit dafür an, dass eine Zufallsvariable einen Wert aus einem Schwankungsintervall annimmt, dessen Grenzen das k-fache der Standardabweichung vom Erwartungswert weg liegen. Für verschiedene Werte von k erhalten wir: 1 0 2 0.75 3 0.88889 4 0.9375 Für k=1 ist die Abschätzung praktisch wertlos, da Wahrscheinlichkeiten sowieso größer oder gleich null sind. Bei k=2 sehen wir aber, dass die Wahrscheinlichkeit, einen Wert aus dem Intervall um zu beobachten, schon ¾ beträgt; bei k=3 ist sie praktisch gleich 0.9 usw. Für die meisten Verteilungen, mit denen wir im Rahmen dieser Einführung zu tun haben, ist die Abschätzung recht grob. Wenn aber sonst keine Voraussetzungen gemacht werden, geht es nicht besser. Ein Sägewerk erhält eine neue Maschine für den automatischen Zuschnitt von Holzlatten. Der Hersteller teilt mit, dass die Maschine mit einer Varianz von cm2 arbeitet. Die Maschine wird so eingestellt, dass die mittlere Lattenlänge cm beträgt. Mit welcher Mindestwahrscheinlichkeit liegt die Lattenlänge einer zufällig der Produktion entnommenen Latte zwischen 148 cm und 152 cm? Link zur Lösung ( : de5.pdf ) Erwartungswert ExplanationStandardabweichung, theoretische ExplanationStandardisierung ExplanationTschebyschev-Ungleichung ExplanationVarianz, theoretische ExplanationVerteilungsfunktion, theoretische ExplanationWahrscheinlichkeitsfunktion ExplanationWahrscheinlichkeitsverteilung ExplanationZufallsvariable ExplanationZufallsvariable, standardisierte Page 9 (c) Projekt Neue Statistik 2003 - Lernmodul: Diskrete Wahrscheinlichkeitsverteilungen Explanation (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 10