Der fiktive Snookerspieler Rollie O'Sunnivan … a) Angenommen, alle Bälle seien unterscheidbar. Wie viele Reihenfolgen gibt es, die Bälle nacheinander zu versenken? Lösung: Bei zwölf Bällen gibt es 12! = 479001600 Reihenfolgen b) Wie viele Möglichkeiten gibt es, die Bälle auf die 6 Taschen eines Snookertisches zu verteilen, wenn sich Rollie für jeden Ball eine neue Tasche zufällig auswäh Lösung: Für den ersten Ball gibt es 6 mögliche Taschen, für den zweiten ebenfalls und so fort. Man hat also 6^12 = 2176782336 Verteilungsmöglichkeiten c) Die roten Bälle beim Snookersport sind in Wahrheit nicht unterscheidbar, da die Bälle nicht durch Zahlen gekennzeichnet sind. Nur die 6 farbigen Bälle sind ver Lösung: Da aus den 12! Möglichkeiten des Aufgabenteils a) nun jeweils 6! Reihenfolgen identisch sind, gibt es bei ununterscheidbaren roten Bällen noch 12!/6! = 665280 Reihenfolgen d) Tatsächlich müssen beim Snooker die roten und farbigen Bälle immer abwechselnd eingelocht werden, also zuerst ein roter, dann ein farbiger, dann wieder ein Lösung: Die Reihenfolge der roten Bälle ist ununterscheidbar und ihre Position in der Reihe liegt fest - sie werden nämlich als erste, dritte, fünfte, siebte, neunte und elfte Kugel gespielt. Damit brauchen nur die möglichen Reihenfolgen der farbigen Kugel bestimmt zu werden. Dies sind 6! = 720 Reihenfolgen e) Der Schiedsrichter weist Rollie O'Sunnivan darauf hin, dass er nur noch 3 rote und 3 farbige Bälle bis zum Sieg benötigt, da er dann uneinholbar nach Punkten Lösung: Hier ist der Binomialkoeffizient anzuwenden. Es gibt zur Auswahl von 3 aus 6 roten Kugeln ohne Beachtung der Reihenfolge (6 über 3) = 6!/(3!3!) = 20 Möglichkeiten f) Angenommen, Rollie sucht sich die 3 zu versenkenden farbigen Bälle aus Aufgabenteil e) zufällig aus. Wie wahrscheinlich ist es, dass unter diesen 3 Bällen gen Lösung: Hier ist die Hypergeometrische Formel anzuwenden. Alle Möglichkeiten, drei Bälle auszuwählen, sind bereits in Aufgabenteil e) ermittelt werden. Für die zwei nicht pinken oder schwarzen Bälle in den drei auszuwählenden Bällen gibt es (4 über 2) = 4!/(2!2!) = 6 Möglichkeiten Für den pinken oder schwarzen Ball aus 2 Bällen gibt es (2 über 1) = 2!/(1!1!) = 2 Möglichkeiten Dann beträgt die gesuchte Wahrscheinlichkeit p = (4 über 2) * (2 über 1) / (6 über 3) = 6 * 2 / 20 = 0.6 g) Wie wahrscheinlich ist es, dass die drei zu versenkenden ununterscheidbaren roten Bälle in unterschiedliche Taschen des Tisches gespielt werden (also maxim Lösung: Wir haben es mit der Bose-Einstein-Statistik zu tun. Prinzipiell geht es darum, k Teilchen auf n Kästchen zu verteilen (mit k ≤ n), wobei die Teilchen ununterscheidbar sind. Soll in jedem Kästchen maximal ein Teilchen liegen, ist dies gleichbedeutend mit der Auswahl von k aus insgesamt n Kästchen (bzw. Taschen beim Snookertisch), wobei die Reihenfolge der Kästchen keine Rolle spielt (denn die Kugeln, die nachher in ihnen landen, sind ja ununterscheidbar). Dies lässt sich einfach mit dem Binomialkoeffizienten bestimmen. Man erhält. wie in Aufgabenteil e) (6 über 3) = 6!/(3!3!) = 20 Möglichkeiten Damit ist die Frage nach den günstigen Fällen beantwortet. Für die Berechnung der möglichen Fälle ist zu fragen, wie man die 3 Kugeln beliebig auf Taschen verteilen kann. Hier kann nicht einfach n^k gerechnet werden, weil dabei angenommen wird, dass die Kugel unterscheidbar sind ("n Möglichkeiten für die ERSTE Kugel, n Möglichkeiten für die ZWEITE Kugel und so fort"). Statt dessen ist der Binomialkoeffizient (n + k - 1 über k) anzuwenden. Die Herleitung findet sich im WT-Skript auf Seite 26 bzw. Seite 40f. Man erhält also für die möglichen Verteilungen der roten Kugeln auf Taschen (6 + 3 - 1 über 3) = (8 über 3) = 8!/(5!3!) = 56 Damit ergibt sich p = (6 über 3) / (8 über 3) = 20 / 56 = 0.35714286 Geschwächt durch seinen exzessiven Marihuanakonsum verliert Rollie O'Sunnivan … a) Die Kommission soll aus 7 Personen bestehen, davon 3 Engländer, 2 Deutsche und 2 Chinesen. Wie viele Möglichkeiten zur Kommissionsbildung gibt es? Lösung: Man berechnet mit dem Binomialkoeffizienten (5 über 3) * (5 über 2) * (3 über 2) = 300 Möglichkeiten, den Ausschuss zu bilden. b) Einer der englischen Vertreter möchte auf keinen Fall mit einem der Deutschen an der Kommission beteiligt sein. Wie viele Möglichkeiten gibt es unter dieser Lösung: Hier gibt es zwei Lösungswege. Lösungsweg 1. Separate Berechnung der Möglichkeiten, keinen der beiden Streithähne oder einen der beiden in den Ausschuss zu wählen. Für die Möglichkeiten für "keinen von beiden" berechnet man (4 über 3) * (4 über 2) * (3 über 2) = 72 Möglichkeiten, den Ausschuss zu bilden. Für die Möglichkeiten, den englischen Vertreter NICHT in den Auschuss zu wählen, erhält man (4 über 3) * (5 über 2) * (3 über 2) = 120 Möglichkeiten Für die Möglichkeiten, den deutschen Vertreter NICHT in den Auschuss zu wählen, erhält man (5 über 3) * (4 über 2) * (3 über 2) = 180 Möglichkeiten Nun muss man aber noch überlegen, dass in den 120 Möglichkeiten, den englischen Vertreter nicht in den Ausschuss zu wählen, die 72 Möglichkeiten, dass auch der deutsche Vertreter nicht in den Ausschuss kommt, enthalten sind. Ebenso sind in den 180 Mögllichkeiten, dass der deutsche Vertreter nicht gewählt sind, die 72 Möglichkeiten, dass auch der englische nicht hineinkommt bereits enthalten. Man muss die 72 Möglichkeiten also jeweils abziehen. Also gibt es insgesamt 72 + (120 - 72) + (180 - 72) = 228 Möglichkeiten Lösungsweg 2: Wenn alle Möglichkeiten, den Aussuss zu bilden, mit N bezeichnet sind und die Möglichkeiten, tatsächlich beide Streithähne zusammen in den Ausschuss zu wählen mit M, so muss die gesuchte Anzahl von Möglichkeiten gleich N - M sein. Wenn also der englische und deutsche Streithahn bereits gesetzt sind, bleiben für die übrigen Plätze noch (4 über 2) * (4 über 1) * (3 über 2) = 72 Möglichkeiten Damit erhält man als gesuchte Anzahl exakt wie oben 300 - 72 = 228 Möglichkeiten c) Auch zwischen Deutschen und Chinesen gibt es Animositäten. Die deutschen Vertreter wollen in den Kommissionssitzungen eigentlich nicht neben einem Ch Lösung: Da es 2 Deutsche und 3 Engländer in dem Ausschuss gibt, müssen Engländer und Deutsche in einem Pulk zusammensitzen, wobei die äußeren Plätze des Pulks von Engländern besetzt werden müssen. Dabei kann der dritte Engländer entweder mit im Pulk sitzen oder außerhalb des Pulks. Wir betrachten diese beiden Möglichkeiten separat und addieren dann die erhaltenen Möglichkeiten. Variante 1: Der dritte Engländer sitzt mit im Pulk, der Pulk umfasst also 5 Personen Man kann den Pulk nun als eine Einheit auffassen, der 5 Sitzplätze benötigt. Die verbleibenden zwei Sitzplätze werden dann von Chinesen besetzt. Da wir den runden Tisch betrachten, ist die Platzierung des ersten Elementes egal. Wir wählen den England-Deutschland-Pulk als erstes Element. Dann gibt es noch 2! = 2 Möglichkeiten, die Chinesen auf den verbleibenden freien Plätzen anzuordnen. Für die Besetzung der beiden äußeren Plätze des Pulks gibt es (3 über 2) = 3!/(2!1!) Möglichkeiten, 2 aus 3 Engländern auszuwählen. Diese beiden können aber noch vertauscht werden, so dass man (3 über 2) * 2! = 3!/1! = 3! = 6 Die verbleibenden 3 Personen (1 Engländer, 2 Deutsche) können dann noch auf 3! = 6 Weisen angeordnet werden, so dass man nun erhält: ((3 über 2) * 2!) * 3! * 2! = 2 * 6 * 6 = 72 Möglichkeiten Variante 2: Der dritte Engländer sitzt außerhalb des Pulks. Man kann den Pulk nun als eine Einheit auffassen, der 4 Sitzplätze benötigt. Die verbleibenden 3 Sitzplätze werden dann von den Chinesen und dem dritten Engländer besetzt. Da wir den runden Tisch betrachten, ist die Platzierung des ersten Elementes egal. Wir wählen den England-Deutschland-Pulk als erstes Element. Dann gibt es noch 3! = 6 Möglichkeiten, die Chinesen und den dritten Engländer auf den verbleibenden freien Plätzen anzuordnen. Für die Besetzung der beiden äußeren Plätze des Pulks gibt es (3 über 2) = 3!/(2!1!) Möglichkeiten, 2 aus 3 Engländern auszuwählen. Diese beiden können aber noch vertauscht werden, so dass man (3 über 2) * 2! = 3!/1! = 3! = 6 Die 2 Deutschen können dann noch auf 2! = 2 Weisen angeordnet werden, so dass man nun erhält: ((3 über 2) * 2!) * 2! * 3! = 6 * 6 * 2 = 72 Möglichkeiten Man hat also insgesamt 72 + 72 = 144 Möglichkeiten Für die Anzahl der Möglichen gilt am runden Tisch wieder (n - 1)!, also (7 - 1)! = 6! = 720 Die Wahrscheinlichkeit, dass kein Deutscher neben einem Chinesen sitzt, beträgt also p = 144 / 720 = 0.2 Rollie vermutet, dass seine aktuelle Formschwäche weniger mit Hanf als vielmehr mit Wolle zu tun hat … a) Zeichnen Sie einen Wahrscheinlichkeitsbaum für diese Situation. Schreiben Sie an die Äste des Baumes sowohl die relativen als auch die absoluten Häufigk Lösung: Zunächst sollte eine Kontingenztabelle der unbedingten absoluten Häufigkeiten erstellt werden. Diese hat folgendes Aussehen Hersteller A Kammgarn Baumwollfilz Σ 9 1 10 Hersteller B Hersteller C Σ 10 9 10 6 20 15 28 17 45 Daraus erstellt man leicht die Kontingenztabelle der unbedingten relativen Häufigkeiten, indem jede absolute Häufigkeit durch die Gesamtsumme (45) geteilt wird. Kammgarn Baumwollfilz Σ Hersteller A Hersteller B Hersteller C Σ 0.200 0.222 0.200 0.022 0.222 0.133 0.222 0.444 0.333 0.622 0.378 1.000 Nun kann die Tabelle der bedingten Häufigkeiten erstellt werden, indem jede unbedingte relative Häufigkeit durch die Randsumme des Herstellers geteilt wird. Kammgarn Baumwollfilz Σ Hersteller A Hersteller B Hersteller C 0.9 0.5 0.6 0.1 0.5 0.4 1 1 1 Damit lässt sich der Wahrscheinlichkeitsbaum zeichnen. Man beachte, dass in dieser Aufgabe noch keine Auswahlwahrscheinlichkeiten für die Hersteller angegeben sind. Für die Wahrscheinlichkeit des Herstellers sind also die Randhäufigkeiten der Hersteller anzugeben. Kammgarn 0.9 (9) Hersteller A 0.222 (10) Baumwollfilz 0.1 (1) Kammgarn 0.5 (10) x Hersteller B 0.444 (20) Baumwollfilz 0.5 (10) Kammgarn 0.6 (9) Hersteller C 0.333 (15) Baumwollfilz 0.4 (6) b) Für die Weltmeisterschaft in Sheffield hatte der Ausrichter zufällig einen der Hersteller ausgewählt und von diesem den Finaltisch beziehen lassen. Wie wahr Lösung: Hier ist der Satz der totalen Wahrscheinlichkeit anzuwenden. Dabei ist zu berücksichtigen, dass nun die Herstellerwahrscheinlichkeit für alle Hersteller aufgrund der zufälligen Auswahl bei 1/3 liegt. Man erhält damit p(Kammgarn) = p(Kammgarn | Hersteller A) * p(Hersteller A) + p(Kammgarn | Hersteller B) * p(Hersteller B) + p(Kammgarn | Hersteller C) * p(He = 1/3 * 0.9 + 1/3 * 0.5 + 1/3 * 0.6 = 0.667 c) Rollie stellt fest, dass der Tisch tatsächlich mit Kammgarnwolle bezogen ist, kann aber den Hersteller nicht mehr ermitteln. Zu welchem Hersteller sollte er ge Lösung: Gefragt ist nach den Wahrscheinlichkeiten für p(Hersteller | Kammgarnwolle). Man rechnet nach Bayes zunächst die unbedingten Verbundwahrscheinlichkeiten für p(Hersteller n Kammgarnwolle) aus und erhält p(Hersteller A n Kammgarnwolle) = p(Kammgarnwolle | Hersteller A) * p(Hersteller A) = 0.9 * 1/3 = p(Hersteller B n Kammgarnwolle) = p(Kammgarnwolle | Hersteller B) * p(Hersteller B) = 0.5 * 1/3 = p(Hersteller C n Kammgarnwolle) = p(Kammgarnwolle | Hersteller C) * p(Hersteller C) = 0.6 * 1/3 = p(Hersteller A | Kammgarnwolle) = p(Hersteller A n Kammgarnwolle) / p(Kammgarnwolle) = 0.3 / 0.667 = p(Hersteller B | Kammgarnwolle) = p(Hersteller B n Kammgarnwolle) / p(Kammgarnwolle) = 0.167 / 0.667 = p(Hersteller C | Kammgarnwolle) = p(Hersteller C n Kammgarnwolle) / p(Kammgarnwolle) = 0.2 / 0.667 = Der Bezugsstoff wurde also am wahrscheinlichsten von Hersteller A geliefert. 0.300 0.167 0.200 0.45 0.25 0.3 O'Sunnivans Ehefrau toleriert seine Eskapaden nicht länger … a) Berechnen Sie den Phi-Koeffizienten sowie den normierten Phi-Koeffizienten. Lösung: Die gegebene Tabelle war: verloren keine Drogen Drogen Σ gewonnen 4 13 17 Σ 9 2 11 13 15 28 Man kann daraus nun die relative Häufigkeitstabelle bestimmen, wenn man lieber mit relativen Häufigkeiten arbeitet. keine Drogen Drogen Σ verloren gewonnen Σ 0.143 0.321 0.464 0.071 0.607 0.393 0.464 0.536 1 Jetzt können direkt auch die zugehörigen φ-max Tabellen bestimmt werden. ABSOLUT verloren keine Drogen Drogen Σ gewonnen 13 4 17 RELATIV verloren gewonnen Σ keine Drogen 0.464 0.000 Drogen 0.143 0.393 Σ 0.607 0.393 Σ 0 11 11 13 15 28 Damit gilt für den φ-Koffizienten Phi-abs = (4 * 2 - 9 * 13) / Wurzel(17 * 11 * 13 * 15) = Phi-rel = (0.143 * 0.071 - 0.321 * 0.464) / Wurzel(0.607 * 0.393 * 0.464 * 0.536) = -0.571 -0.571 Und für φ-max Phimax-abs = (13 * 11 - 0 * 4) / Wurzel(17 * 11 * 13 * 15) = Phimax-rel = (0.464 * 0.393 - 0 * 0.143) / Wurzel(0.607 * 0.393 * 0.464 * 0.536) = 0.749 0.749 Man erhält also für φ-norm Phi-norm = Phi / Phi-max = -0.571 / 0.749 = -0.762 b) Was bedeutet dieses Ergebnis inhaltlich? Lösung: Hier gilt es die Reihenfolge der Kodierungen in der Tabelle genau zu berücksichtigen. Es besteht ein inverser Zusammenhang zwischen den Variablen "Keine Drogen" und "Turnier verloren". Damit verliert O'Sunnivan immer dann eher nicht, wenn er keine Drogen genommen hat. Positiv formuliert: Er gewinnt sehr viel häufiger dann, wenn er clean ist. 0.464 0.536 1 Eine Gesundheitspsychologin ist hochinteressiert an den Daten a) Bestimmen Sie Median, Mittelwert sowie unteres und oberes Quantil für die Cannabinolmenge. Lösung: Die Tabelle lautete Turnier Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 cannabinol Gewonnen 0.53 0 0.69 0 0.53 0 0.51 1 0.43 1 0.54 0 0.56 0 0.53 0 0.54 0 0.51 1 0.53 0 0.51 1 0.39 1 0.48 1 0.55 0 0.65 0 cannabinol (sortiert) 0.39 0.43 0.48 0.51 0.51 0.51 0.53 0.53 0.53 0.53 0.54 0.54 0.55 0.56 0.65 0.69 Die Anzahl von Datenwerten ist gerade, also liegt der Median der Cannabinolmenge zwischen dem N/2-tem und N/2+1-tem Wert. N/2-ter Wert = 8-ter Wert = N/2+1-ter Wert = 9-ter Wert = 0.53 0.53 Der Mittelwert daraus und damit der Median der Cannabinolmenge ist 0.53 Zur Bestimmung des 25% Quantils muss festgestellt werden, dass N * p = 16 * 0.25 = 4 ganzzahlig ist. Damit ist das 25% Quantil definiert als Mittelwert zwischen dem 4-ten und 4+1-ten Wert. Man erhält also Q.25 = (0.51 + 0.51) / 2 = 0.51 Der Wert 0.51 ist also der Wert in der Cannabinolmengenstichprobe, unter dem mindestens 25% der Datenwerte und über dem mindestens 75% der Datenwerte liegen. Zur Bestimmung des 75% Quantils stellt man fest, dass N * p = 16 * 0.75 = 12 ganzzahlig ist. Damit ist das 75% Quantil definiert als Mittelwert zwischen dem 12-ten und 12+1-ten Wert. Man erhält also Q.75 = (0.54 + 0.55) / 2 = 0.545 Der Wert 0.545 ist also der Wert in der Cannabinolmengenstichprobe, unter dem mindestens 75% der Datenwerte und über dem mindestens 25% der Datenwerte liegen. b) Zeichnen Sie ein Säulendiagramm für die Turniersiege. Lösung: Hierzu werden zunächst die Häufigkeiten für "verloren" und "gewonnen" aus obiger Tabelle bestimmt. Man erhält h(verloren) = h(0) = h(gewonnen = h(1) = N= 10 6 16 Daraus kann man die relativen Häufigkeiten bestimmen als p(verloren) = h(0) / N = p(gewonnen) = h(1) / N = 0.625 0.375 Man kann nun entscheiden, ob ein absolutes oder relatives Säulendiagramm gezeichnet wird. verloren gewonnen Relativ Absolut 1 12 10 8 6 4 2 0 0.8 0.6 0.4 0.2 0 verloren verloren gewonnen gewonnen c) Zeichnen Sie einen Scatterplot für den Zusammenhang zwischen Cannabinolmenge und Turniersieg. Tragen Sie auf der X-Achse die Variable "Turniersieg" a Lösung: Der Einfachheit halber kann die Tabelle zunächst umgestellt werden Gewonnen 0 0.53 0.69 0.53 0.54 0.56 0.53 0.54 0.53 0.55 0.65 Cannabinol 1 0.51 0.43 0.51 0.51 0.39 0.48 Cannabinolmenge Der Scatterplot ist damit 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 0 1 2 Turnier gewonnen d) Ist der in Aufgabenteil c) erstellte Scatterplot eine inhaltlich sinnvolle Darstellung? Welchen Wirkungszusammenhang suggeriert er? Lösung: Nein, der Scatterplot ist so keine sinnvolle Darstellung. Intuitiv wird die X-Variable als verursachende Variable (UV) und die Y-Variable als abhängige Variable (AV) aufgefasst. Damit suggeriert der Plot eine Kausalwirkung eines Turniersieges auf die zugeführte Cannabinolmenge, also die exakt inverse als untersuchte Zusammenhangsrichtung e) Berechnen Sie den punktbiserialen Korrelationskoeffizienten für diese Daten. Welche inhaltliche Aussage leiten sie aus Ihrem Ergebnis ab? Lösung: Zur Berechnung des Punkt-biserialen Korrelationskoeffizienten kann die in Aufgabenteil c) erstellte Tabelle herangezogen werden. Man benötigt folgende Kennwerte: SD(Cannabinolmenge) = MW(Cannabinolmenge bei verloren) = MW_0 = MW(Cannabinolmenge bei gewonnen) = MW_1 = N_0 = h(0) = N_1 = h(1) = N= 0.068 0.565 0.472 10 6 16 r_pbis = (0.472 - 0.565) / 0.068 * Wurzel(10 * 6 / 16²) = -0.661 Die Cannabinolmenge und die Zufallsvariable "Turniersieg" korrelieren negativ miteinander. Je höher die Cannabinolmenge, des eher verliert O'Sunnivan ein Turnier. f) In welcher Beziehung steht der punktbiseriale Korrelationskoeffizient zur Produkt-Moment-Korrelation nach Pearson? Hätten sich für beide Maße hier untersc Lösung: r_pbis ist lediglich eine mathematisch andere Schreibweise der Produkt-Moment-Korrelation. Daher müssen bei beiden Kennwerten dieselbe Zahl resultieren. Man erhält tatsächlich r= -0.661 g) Kann die Gesundheitspsychologin für die Cannabinolmenge Intervallskalenniveau annehmen? Lösung: Streng genommen kann sie das nicht. Eine physikalisch exakt gemessene Cannabinolmenge wäre zwar nicht nur intervall, sondern sogar verhältnisskaliert (nur die Einheit wäre beliebig; gramm, milligramm etc.), allerdings handelt es sich bei den Daten nur um geschätzte Werte. Hier korrekte Schätzungen anzunehmen ist ein eher gewagtes Postulat. h) Erstellen Sie einen Q-Q-Plot für die Cannabinolmenge. Sind die Daten approxmativ normalverteilt? Lösung: Zur Erstellung des Q-Q-Plots ist wie folgt vorzugehen - Die Werte der Cannabinolmenge werden zunächst z-standardisiert. - Dann werden sie sortiert. - Daraufhin werden die erwarteten Quantilszahlen (p) berechnet. - Anschließend die erwarteten Quantile (z-Werte der gerade berechneten p-Werte) - Die Wertepaare aus beobachten und erwarteten z-Werten werden dann in ein Koordinatensystem eingetragen. - Nun kann noch die aufgeklärte Varianz r² berechnet werden. Die Berechnungsschritte sind in folgender Tabelle zusammengefasst Nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 MW SD CannabinolmeSortiert 0.53 0.69 0.53 0.51 0.43 0.54 0.56 0.53 0.54 0.51 0.53 0.51 0.39 0.48 0.55 0.65 0.530 0.068 0.39 0.43 0.48 0.51 0.51 0.51 0.53 0.53 0.53 0.53 0.54 0.54 0.55 0.56 0.65 0.69 z_beob p -2.048 -1.463 -0.731 -0.293 -0.293 -0.293 0.000 0.000 0.000 0.000 0.146 0.146 0.293 0.439 1.755 2.340 0.03125 0.09375 0.15625 0.21875 0.28125 0.34375 0.40625 0.46875 0.53125 0.59375 0.65625 0.71875 0.78125 0.84375 0.90625 0.96875 z_erwartet e -1.863 -1.318 -1.010 -0.776 -0.579 -0.402 -0.237 -0.078 0.078 0.237 0.402 0.579 0.776 1.010 1.318 1.863 Var(e) = Var(z) = r² = 1 - Var(e) / Var(y)= -0.185 -0.145 0.279 0.484 0.287 0.110 0.237 0.078 -0.078 -0.237 -0.256 -0.433 -0.484 -0.571 0.437 0.477 0.114 1.000 0.886 Der Scatterplot konstruiert sich damit als 3 z_beobachtet 2 1 0 -3 -2 -1 0 1 2 3 -1 -2 -3 z_erwartet Die aufgeklärte Varianz ist zwar recht hoch (88.63638365463%, allerdings werden bei optischer Inspektion des Q-Q-Plots systematische Abweichungen von der Normalverteilung sichtbar. Für niedrige Datenwerte liegen die standardisierten Werte eher über der Erwartung, für hohe Datenwete eher darunter. Dieses Muster wird nur bei den zwei jeweils extremsten Punktend durchbrochen. Bevor also eine Normalverteilung konstatiert wird, sollte näher auf die Daten geschaut werden. Nach dem erfreulichen Ergebnis aus Aufgabe 5 führt die Gesundheitspsychologin … a) Berechnen Sie den χ²-Koeffizienten sowie Cramérs V. Lösung: Gegeben war eine Tabelle mit relativen Häufigkeiten. Daraus kann zunächst eine absolute Häufigkeitstabelle erstellt werden. Dies ist aber für die Berechnung des χ² nicht relevant. Im folgenden wird die Berechnung an der relativen Kontingenztabelle veranschaulicht. RELATIV Erstrundennie Niederlage in Turniersieg Σ Cannabis 0.105 0.035 0.01 Kokain 0.145 0.06 0.015 0.045 0.105 0.02 Sonstige Drog Keine Drogen 0.06 0.325 0.075 Σ 0.355 0.525 0.12 0.15 0.22 0.17 0.46 1 ABSOLUT Erstrundennie Niederlage in Turniersieg Σ Cannabis 21 7 2 Kokain 29 12 3 Sonstige Drog 9 21 4 Keine Drogen 12 65 15 Σ 71 105 24 30 44 34 92 200 Nun können die zugehörigen Indifferenztabellen über die Multiplikation der Randhäufigkeiten bestimmt werden. RELATIV Erstrundennie Niederlage in Turniersieg Σ Cannabis 0.053 0.079 0.018 Kokain 0.078 0.116 0.026 0.060 0.089 0.020 Sonstige Drog Keine Drogen 0.163 0.242 0.055 Σ 0.355 0.525 0.120 0.150 0.220 0.170 0.460 1.000 ABSOLUT Erstrundennie Niederlage in Turniersieg Σ Cannabis 10.650 15.750 3.600 Kokain 15.620 23.100 5.280 Sonstige Drog 12.070 17.850 4.080 Keine Drogen 32.660 48.300 11.040 Σ 71 105 24 30 44 34 92 200 Die Berechnung des χ² verläuft in beiden Fällen exakt gleich. Es wird die Summe aus allen Quotienten (beob - erwart)² / erwart gebildet. χ² für die relativen Häufigkeitsdaten: 0.031 Auch Cramérs V wird in beiden Fällen gleichartig berechnet. Allerdings ist darauf zu achten, dass der Wert für N im Falle relativer Häufigkeiten gleich 1 ist. Man rechnet als Cramérs V für die relativen Häufigkeitsdaten = Wurzel(χ² / (N * Min(Zeilen - 1, Spalten - 1)) = Wurzel(0.031 / (1 * Min(4 - 1, 3 - 1)) = 0.124 b) Welche inhaltliche Aussage leiten Sie aus Ihrem Ergebnis ab? Handelt es sich um einen hohen Zusammenhang zwischen den betrachteten Variablen? Lösung: Es gibt einen Zusammenhang zwischen der Art konsumierter Drogen und dem Gewinn von Snookerturnieren. Bestimmte Drogen wirken sich also stärker bzw. schwächer auf die Siegchance aus als andere. Der Zusammenhang ist aber eher niedrig. Infolge des dramatischen Ergebnisses der Rauschmittelevaluation seiner Ehefrau … a) Wie wahrscheinlich ist es, dass 10 oder mehr Bälle gelocht werden? Berechnen Sie die Wahrscheinlichkeit sowohl exakt als auch approximativ. Lösung: Es ist die Binomialverteilung anzunehmen. Sie ist in der Aufgabe definiert durch die Parameter n= p= q=1-p= 475 0.02 0.98 Nun kann die Wahrscheinlichkeitsverteilung aus der Binomialverteilung bestimmt werden als k p 0 1 2 3 4 5 6 7 8 9 0.000 0.001 0.003 0.010 0.025 0.047 0.076 0.104 0.124 0.131 p(kumuliert) 0.000 0.001 0.004 0.014 0.039 0.086 0.162 0.266 0.390 0.521 Die gesuchte Wahrscheinlichkeit berechnet sich nun als p(k≥10) = 1 - p(k < 9) = 1 - 0.521 = 0.479 Zur Approximation kann die Normalverteilung verwendet werden, da n * p * q = 475 * 0.02 * 0.98 = 9.310 größer als 9 ist. Man berechnet zunächst die Parameter der Normalverteilung als μ=n*p= σ = Wurzel(n * p * q) = 9.500 3.051 Nun kann die Wahrscheinlichkeit für mindestens 10 gelochte Bälle berechnet werden Mit der Stetigkeitskorrektur wählt man aber nicht, 10, sondern 10 - 0.5 = 9.5 als Grenze. Dies ist exakt der Wert μ, also beträgt die gesuchte Wahrscheinlichkeit 0.5. Ohne Stetigkeitskorrektur hätte man berechnet p(k≥10) = 1 - p(k ≤ 10) = 1 - 0.565 = 0.435 und hätte damit schlechter approximiert als mit der Stetigkeitskorrektur. b) Frau O'Sunnivan nutzt die Gelegenheit und zwingt ihren Mann zu einer Abmachung. Sie darf für jeden nicht gelochten Ball 20 cl aus Rollies reichhaltigem Whisk Lösung: Hier ist nach dem Erwartungswert gefragt. Die Wahrscheinlichkeit, einen Ball nicht zu lochen, wurde oben bereits berechnet mit q=1-p= 0.98 Bei 475 gespielten Bällen werden also E = n * q = 475 * 0.98 = 465.5 Bälle nicht gelocht Wenn also für jede der 465.5 nicht gelochten Bälle 20 cl weggeschüttet werden dürfen kann Frau O'Sunnivan voraussichtlich 465.5 * 20 cl = 9310 cl vernichten dürfen, also über 9 l c) Mit welcher Wahrscheinlichkeit werden zwischen 130 und 310 cl Whiskey in den Ausguss wandern? Lösung Hier gibt es zwei mögliche Lösungswege, die im folgenden beschrieben werden. Variante 1: Umrechnung der cl Angaben Zunächst können die Angaben in cl umgerechnet werden in die Anzahl nicht getroffener Bälle. Wenn pro Ball 20 cl vernichtet werden, sind also 130 cl => 130 / 20 = 6.5 Bälle und 310 cl => 310 / 20 = 15.5 Bälle Diese Angaben können nun mit dem zuvor berechneten mu und sigma z-transformiert werden. Hier muss aber beachtet werden, dass das gewünschte μ nun der in Aufgabenteil b) berechnete Erwartungswert ist, also mu = n * q = 475 * 0.98 = 465.5 Die Varianz (Wurzel(n * p *q)) bleibt natürlich dieselbe. Nun z-transformiert man über z(6.5) = (6.5 - 465.5) / 3.051 = z(15.5) = (15.5 - 465.5) / 3.051 = -150.431 -147.482 Es muss also die Fläche unter der Standardnormalverteilung zwischen den Werten -150.431 und -147.482 ermittelt werden. Diese ist mit Sicherheit extrem klein, also kann direkt Null angenommen werden. Variante 2: Transformation der Zufallsvariablen Es können auch die Werte der Zufallsvariablen (also die Anzahl nicht gelochter Bälle) in cl umgerechnet werden. Dazu wird eine neue Zufallsvariable berechnet, indem man die Anzahl nicht gelochter Bälle mit 20 multipliziert. Diese Transformation wirkt sich dann auf Erwartungswert μ und Standardabweichung σ der neuen Variablen aus. Wir benennen zunächst die ZV "Anzahl gelochter Bälle" mit X und die neue ZV "Vernichtete cl" mit X*. Um X* zu ermitteln, würde nun einfach gerechnet X* = 20 * X Wir haben in der Vorlesung gesehen, dass bei dieser Transformation für den Erwartungswert der neuen Variablen X* gilt mu_X* = 20 * X = 20 * 465.5 = 9310 Ebenso weiß man aus der Vorlesung, dass gilt Var(a * X) = a² * Var(X) und damit direkt SD(a * X) = Wurzel(a² * Var(X)) = a * SD(X). Man erhält also hier sigma(X*) = sigma(20 * X) = 20 * sigma(X) = 20 * 3.051 = 61.025 Mit diesen beiden Parametern der neuen Zufallsvariablen können direkt die angegebenen cl Werte z-transformiert werden. z(130) = (130 - 9310) / 61.025 = z(310) = (310 - 9310) / 61.025 = -150.431 -147.482 und kommt zur selben Wahrscheinlichkeit. d) Rollies Whiskeyvorrat umfasst insgesamt 375 cl. Mit welcher Wahrscheinlichkeit wird seine Frau den gesamten Vorrat vernichten können? Lösung: Hier ist zu beantworten, mit welcher Wahrscheinlichkeit mehr als 375 cl weggeschüttet werden können. Man kann wieder zunächst in nicht getroffene Bälle umrechnen. 375 cl => 375 / 20 = 18.75 Bälle Der z-Wert hierzu ist z(18.75) = (18.75 - 465.5) / 3.051 = -146.416 Die gesuchte Wahrscheinlichkeit erhält man über p(k≥18.75) = 1 - p(k ≤ 18.75) = 1-0= 1.000 Hinweis: Analog zur letzten Aufgabe kann auch wieder die Verteilung der neuen Zufallsvariablen zur z-Standardisierung benutzt werden. Man erhielte z(375) = (375 - 9310) / 61.025 = und kommt zur selben Wahrscheinlichkeit. -146.416 Unabhängig von einer Finalteilnahme O'Sunnivans beträgt die Wahrscheinlichkeit, als Zuschauer eines Snookerspiels … a) Welche Verteilung ist hier anzunehmen? Lösung: Es handelt sich um ein sehr seltenes Ereignis mit zwei Ausprägungen. Ohne weitere Informationen kann zunächst die Poisson-Verteilung angenommen werden. b) Wie hoch ist die Wahrscheinlichkeit für mindestens einen durch Kopfball entleibten Zuschauer pro Saison? Lösung: Gegeben waren diese Parameter p= n= 0.0000009 65000 Damit berechnet sich der Parameter λ der Poissonverteilung als λ=n*p= 0.0585 Berechnet werden kann nun die Gegenwahrscheinlichkeit, also p(m = 0 tote Zuschauer) als p(m ≥ 1 toter Zuschauer) = 1 - p(m = 0 tote Zuschauer) = 1 - Exp(-λ) * λ^m / m! = 1 - Exp(-0.0585) * 0.0585^0 / 0! = Während eines desaströs verlaufenden Erstrundenspiels bei den China Open … a) Zeichnen Sie ein relatives Histogramm für die Daten aus Tabelle 4. Lösung: Die gegebene Datentabelle lautete (rel. Häufigkeiten etc. werden später berechnet). Kat. Nr. 1 2 3 4 5 Grenzen 0.93 - 1.95 1.95 - 2.29 2.29 - 2.63 2.63 - 2.96 2.96 - 3.64 Häufigkeit 10 16 23 20 16 Rel. Häufigkei Breite d 0.118 0.188 0.271 0.235 0.188 1.02 0.34 0.34 0.33 0.68 Säulenhöhe a 0.115 0.554 0.796 0.713 0.277 Die relativen Häufigkeiten werden am Beispiel der ersten Kategorie berechnet als f(x) = h(x) / N = 10 / 85 = 0.118 Nun sind die Kategoriebreiten d zu bestimmen. Da wir es offenbar mit einer stetigen Zufallsvariable zu tun haben, kann nicht bestimmt werden, zu welcher Kategorie die Grenze gehört (Beispiel: Ist die obere Grenze der ersten Kategorie gleich 1.94 oder 1.944 oder 1.9444 und so fort). Man berechnet die Kategoriebreiten also tatsächlich als Differenz der angegebenen Grenzen (siehe oben), am Beispiel der ersten Kategorie d = 1.95 - 0.93 = 1.02 Die Säulenhöhen werden am Beispiel der ersten Kategorie berechnet als a = f(x) / d = 0.118 / 1.02 = 0.115 0.05682176 Damit kann das Histogramm gezeichnet werden. 0.93 0.93 0.8 1.95 0.7 1.95 0.6 2.29 2.29 0.5 2.63 0.4 2.63 0.3 2.96 0.2 2.96 0.1 3.64 0 0.5 3.641 0.9 0 0.115340254 0.115340254 0.553633218 0.553633218 0.795847751 0.795847751 0.713012478 0.713012478 0.276816609 0.276816609 0 2.5 1.5 2 3 3.5 4 Hier wird ein Problem des Histogramms deutlich. Ist die Klassenbreite kleiner als 1, können die relativen Häufigkeiten der Balkenhöhen beliebig groß werden (bei beliebig kleinen Klassenbreiten), also auch größer 1. Ein analoges Problem entsteht beim absoluten Histogramm, wo die absoluten Häufigkeiten der Balken größer werden können als das eigentliche N. In solchen Fällen wäre ein einfaches Balkendiagramm der absoluten Häufigkeiten mit gleichen (!) Klassenbreiten vorzuziehen. b) Berechnen Sie Mittelwert und Varianz der kategorisierten Daten aus Tabelle 4. Benutzen Sie dabei als Referenzwert für eine Kategorie jeweils die Kategoriemitte. Lösung: Die Mitte jeder Klasse erhält man über die Formel Klassenmitte = (OG + UG) / 2 Damit konstruiert man diese Tabelle der Klassenmitten und relativen Häufigkeiten Nr 1 2 3 4 5 Klassenmitte = (0.93 + 1.95) / 2 = = (1.95 + 2.29) / 2 = = (2.29 + 2.63) / 2 = = (2.63 + 2.96) / 2 = = (2.96 + 3.64) / 2 = 1.44 2.12 2.46 2.795 3.3 rel. Häufigkeit 0.118 0.188 0.271 0.235 0.188 Nun berechnet sich der Mittelwert wie bereits bei kategorisierten Daten bekannt als die Summe der Produkte zwischen Klassenmitte ung relativer Häufigkeit. x_quer = (1.44 * 0.118) + (2.12 * 0.188) + (2.46 * 0.271) + ( * 2.795 * 0.235) + ( * 3.3 * 0.188) = 2.513 In derselben Weise berechnet sich die Standardabweichung als Var(x) = ((1.44 - 2.513)² * 0.118) + ((2.12 - 2.513)² * 0.188) + ((2.46 - 2.513)² * 0.271) + ((2.795 - 2.513)² * 0.235) + ((3.3 - 2.513)² * 0.188) = Und damit SD(x) = Wurzel(Var(x)) = Wurzel(0.301) = 0.548 c) Unter den vielen Proben O'Sunnivans befindet sich ein namentlich nicht beschriftetes Testresultat, das einen Blutalkoholwert von 1.27 ausweist. Angenommen, die Ä Lösung: Der angegebene Wert muss zunächst z-standardsiert werden. z(1.27) = (1.27 - 2.513) / 0.548 -2.267 Für die Entscheidung ist zu prüfen, mit welcher Wahrscheinlichkeit ein solcher z-Wert oder ein noch extremerer (hier: kleinerer) Wert zustande gekommen wäre, angenommen O'Sunnivan hätte die Probe abgegeben. Konkret muss also die Fläche links von dem berechneten z-Wert unter der Standardnormalverteilung ermittelt werden. Dies ist p(x <= -2.267) = 0.011692304 Die Wahrscheinlichkeit dafür, dass die Probe von O'Sunnivan stammt (gegeben seine Proben sind normalverteilt mit den angenommenen Parametern), beträgt also 1.17%. Es ist ein sehr unwahrscheinliches Ereignis, so dass der Arzt eher annehmen sollte, dass die Probe nicht von O'Sunnivan abgegeben wurde. Mit wachsender Verzweiflung sucht Rollie O'Sunnivan nach einem Grund für seine zunehmende Formschwäche … a) Um welches Skalenniveau handelt es sich bei den geschätzten Lautstärke- und Nervositätswerten höchstens? Lösung: Beide Werte sind nach subjektiver Wahrnehmung geschätzt. Insofern ist nicht einmal gesichert, dass die Ordnung zwischen zwei unterschiedlich großen Werten tatsächlich interpretiert werden kann. Sollte Rollie aber ein guter Schätzer sein und seine Lautstärke- und Nervositätsskalen nicht zu fein abgestuft sind, kann man von Ordinalskalenniveau ausgehen. Höhere Skalenniveaus anzunehmen wäre jedoch diskussionswürdig. b) Berechnen sie Spearman's Rangkorrelation für die Daten. Lösung: Die Datentabelle war gegeben als Nr. 1 2 3 4 5 6 Lautstärke (XNervosität (Y) Rang(X) Rang(Y) 2 0.966 6 22 0.207 2 7 0.345 4 13 0.276 3 3 0.759 5 30 0.069 1 1 5 3 4 2 6 d = Rang(Y) - Rang(X) -5 3 -1 1 -3 5 Die Rangkorrelation kann nun einfach über Pearsons Produkt-Moment Korrelation zwischen den Rangzahlen ermittelt werden. Man erhält r= -1 oder über die vereinfachte Rechenformel r= Die Summe aller quadrierten Rangdifferenzen d ist Σ d² = 70 Damit erhält man für die Formel r = 1 - (6 * Σ d²) / ((n² - 1) * n1 - (6 * 70) / ((6² - 1) * 6) = -1 Die Gesundheitspsychologin erweist sich als zuverlässige Fachvertreterin … c) Berechnen Sie eine einfache lineare Regression der Daten aus Tabelle 5. Lösung: Gegeben ist diese Tabelle Nr 1 2 3 4 5 6 x y Lautstärke (XNervosität (Y) 2 0.966 22 0.207 7 0.345 13 0.276 3 0.759 30 0.069 Daraus sind zunächst die deskriptiven Statistiken zu berechnen x mw var sd cov(x,y) r y 12.833 104.472 10.221 0.437 0.101 0.318 -2.801 -0.862 Nun können die Parameter der linearen Regression berechnet werden. a b r² -0.027 0.781 0.744 d) Zeichnen Sie die Daten sowie die Regressionslinie samt wichtiger Punkte (Mittelwert, Y-Achsenabschnitt) in einen Scatterplot ein. Lösung: Der folgende Scatterplot enthält die Datenpunkte sowie alle Regressionsgeraden/-kurven der folgenden Aufgabenteile. 1.200 1.000 Nr y = -0.0268x + 0.7808 R2 = 0.7439 0.800 1 2 3 4 5 6 0.600 0.400 0.200 Sortierte Daten für die Grafik Log-Daten Logit-Daten x y_dach y_dach 2 1.052 0.827 3 0.750 0.802 7 0.369 0.681 13 0.220 0.449 22 0.142 0.161 30 0.109 0.050 0.000 0 5 10 15 20 25 30 35 -0.200 e) Deutet der Verlauf der Daten eher ein exponentielles oder ein logistisches Regressionsmodell an? Lösung: Die Daten sind weniger ogivenförmig, sondern fallen eher exponentiell ab. Daher wäre vermutlich das Exponentialmodell die richtige Wahl. f) Berechnen sie zunächst eine logistische Regression. Ist das logistische Regressionsmodell, unabhängig vom Ergebnis der Regressionsanalyse, bei den vo Lösung: Nach Umformung in Logits erhält man folgende Tabelle: Nr x 1 2 3 4 5 6 MW Var SD logit(Y) 2 22 7 13 3 30 3.332 -1.344 -0.642 -0.965 1.145 -2.603 12.833 104.472 10.221 -0.179 3.691 1.921 y_dach e 0.827 0.161 0.681 0.449 0.802 0.050 0.495 0.092 0.303 -0.139 -0.046 0.336 0.173 0.044 -0.019 0.058 0.024 0.156 Daraus erhält man als Regressionskoeffizienten der logistischen Regression: cov(x, logit(y)) r_logit a b r² -16.796 -0.855 -0.161 1.884 0.759 Unabhängig vom Ergebnis ist die logistische Regression kein a priori sinnvolles Modell für die Daten. Die y-Variable (Nervosität) wird auf einer Skala von 0 bis 2 gemessen (siehe Aufgabe). Die logistische Regression in der hier berechneten Form hat jedoch nur einen Wertebereich auf der y-Variable von 0 bis 1. Ohne eine Datentransformation der y-Werte ist also die logistische Regression hier per se kein sinnvolles Modell für die Daten. g) Berechnen Sie eine nichtlineare Regression mit dem Modell y=kx^m. Geben sie den Determinationskoeffizienten an. Was bedeutet das Ergebnis inhaltlich? Lösung: Nach Logarithmierung erhält man folgende Tabelle mit den deskriptiven Statistiken (y_dach und e werden später berechnet): Nr Ln(X) 1 2 3 4 5 6 MW Var SD Ln(Y) 0.693 3.091 1.946 2.565 1.099 3.401 -0.035 -1.576 -1.065 -1.288 -0.276 -2.674 2.132 0.982 0.991 -1.152 0.756 0.870 y_dach e = (y - y_dach) 1.052 -0.087 0.142 0.065 0.369 -0.024 0.220 0.056 0.750 0.009 0.109 -0.040 0.440 0.120 0.347 -0.004 0.003 0.053 Die (hier mit dem natürlichen Logarithmus Ln) logarithmierte nichtlineare Regressionsgleichung hat folgende Gestalt: Ln(y) = Ln(k) + m * Ln(x) Man setzt nun günstigerweise k' = Ln(k) Daraus erhält man als Regressionskoeffizienten der nicht linearen Regression: cov(Ln(x), Ln(y r(Ln(x), Ln(y)) = -0.821 -0.953 Steigungsparameter m = -0.836 Nun kann die logarithmierte Gleichung verwendet werden, um den Y-Achsenabschnitt zu berechnen. Man formt zunächst um: k' = Ln(y) - m * Ln(x) und setzt dann die Mittelwerte der logarithmierten x- und y-Daten ein. Y-Achsenabschnitt k' = Ln(y)_quer - m * Ln(x)_quer = -1.152 - 2 * -0.836 * 2.132 = 0.631 Der k' Koeffizient muss nun noch rücktransformiert werden über (e^k'). k= 1.879 Nun ist der Determinationskoeffizient zu berechnen als (1 - Var(e) / Var(y)). Zur Bestimmung von Var(e) müssen zunächst die Abweichungen der vorhergesagten zu den beobachteten y-Werten bestimmt werden (siehe Tabelle oben). Achtung: Die beobachteten y-Werte sind die Originaldaten, nicht die logarithmierten y-Werte. Zusätzlich ist zu beachten, dass der Mittelwert der Fehler aufgrund der Linearisierung nicht Null ist. Daher muss wie üblich die Varianz der Fehler berechnet werden als 1 / N * Σ(e - e_quer)². r² = 0.972 h) Für welches Regressionsmodell entscheiden Sie sich? Kann aus diesem Ergebnis geschlossen werden, dass das gewählte Regressionsmodell "wahr" ist, d Lösung: Sowohl nach optischer Inspektion als auch nach Betrachtung der aufgeklärten Varianzen erweist sich das Exponentialmodell als gut passend. Es handelt es sich dabei aber weiterhin lediglich um ein Modell, das den Verlauf der Daten gut approximiert. Es hat keine theoretische Erklärungskraft und sagt nichts über Art und Form des tatsächlichen Zusammenhangs zwischen die betrachteten Variablen aus.