Aufgabenblatt 1 S. 1 SS16 A1: Welche Mengen sind gleich? a) {r, s, t} b) {s, t, r, s} c) {t, s, t, r} d) {s, r, s, t} A2: Sei M = {r, s, t}. Welche Aussagen sind wahr? a) r ∈ M b) r ⊆ M c) {r} ∈ M d) {r} ⊆ M A3: Zeigen Sie: A ⊆ ∅ ⇒ A = ∅ A4: Zwei Mengen A, B heißen disjunkt, falls A ∩ B = ∅. Zeigen Sie: Für je zwei Mengen A, B sind die folgenden Mengen paarweise disjunkt: A\B, A ∩ B, B\A und es gilt: A ∪ B = (A\B) ∪ (A ∩ B) ∪ (B\A) A5: Sei Ω Grundgesamtheit, A, B, C ⊆ Ω. Machen Sie sich klar: a) A ∪ ∅ = A, A ∩ ∅ = ∅, A ∪ Ω = Ω, b) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), c) A ∪ Ac = Ω, d) (Ac )c = A, A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C). A ∩ Ac = ∅. ∅c = Ω, Ωc = ∅. e) A ⊆ A ∪ B, B ⊆ A ∪ B. f) A ∩ B ⊆ A, A ∩ B ⊆ B. g) A\B ⊆ A, A ∩ Ω = A. B\A ⊆ B. h) A ∪ A = A ∩ A = A. i) A ⊆ B ⇒ A ∩ B = A und A ∪ B = B. A6: Sei A = {a, b, c, d}. Listen Sie lexikographisch alle 2- und 3-Permutationen auf! A7: Bestimmen Sie alle Permutationen von M = {1, 2, 3}! A8: Bestimmen Sie alle 3-Kombinationen aus M = {1, 2, 3, 4, 5}! A9: Angenommen, drei Männer und zwei Frauen wollen sich nebeneinander in eine Reihe setzen. a) Wie viele Sitzplatzverteilungen sind insgesamt möglich? b) Wie viele Möglichkeiten gibt es, wenn sowohl die Männer als auch die Frauen zusammensitzen möchten? Aufgabenblatt 1 S. 2 SS16 c) Wie viele Möglichkeiten gibt es, wenn nur die Frauen zusammensitzen möchten? d) Beantworten Sie dieselben Fragen für zwei Männer und zwei Frauen und listen Sie hier zur Kontrolle die Möglichkeiten auf! e) Wie wahrscheinlich sind die entsprechenden Ereignisse, falls die Sitzplätze zufällig verteilt werden? A10: Auf wie viele Arten kann man beim Skat Karten geben? (Beim Skatspiel erhalten drei Spieler je 10 von 32 Karten, 2 Karten bleiben übrig. Es kommt hier nur auf das Ergebnis, nicht auf die Austeilprozedur an.) A11: Ein Psychologe plant ein Experiment mit zwei Experimentalgruppen und einer Kontrollgruppe. Ihm stehen 30 Vpn zur Verfügung, die er “per Zufall“ so auf die drei Untersuchungsbedingungen aufteilen möchte, daß unter jeder Bedingung 10 Personen untersucht werden. Wie viele Aufteilungsmöglichkeiten bestehen? A12: Aus einer Urne mit 10 Kugeln werden 4 Kugeln mit Zurücklegen mit Berücksichtigung der Reihenfolge gezogen. Bestimmen Sie die Anzahl der Möglichkeiten! A13: a) Wie viele k-Tupel aus {0, 1} gibt es, in denen r-mal (r ≤ k) die Eins vorkommt? b) Wie viele Möglichkeiten des Ziehens mit Zurücklegen und mit Berücksichtigung der Reihenfolge aus {0, 1} gibt es, in denen siebenmal die 0 und dreimal die 1 vorkommt? c) Eine Münze (Kopf, Zahl) werde 10-mal geworfen. Wie viele Möglichkeiten gibt es, bei einer solchen Sequenz von 10 Würfen ein Ergebnis zu erhalten, bei dem 4-mal Kopf auftritt? A14: Ein Kaninchenzüchterverein bestehe aus 9 Männern und 3 Frauen. Er soll eine Abordnung von 4 Mitgliedern auf eine Fachtagung entsenden. a) Wie viele Abordnungen sind insgesamt möglich? b) Wie viele von ihnen enthalten wenigstens eine Frau? c) Wie viele von ihnen enthalten genau eine Frau? A15: Bestimmen Sie (a + b)3 , (x + y)5 , (2u + v 2 )4 . 99 99 A16: Berechnen Sie 53 , 14 , 96 , 3 . 11 Aufgabenblatt 2 S. 1 SS16 A1: Zeigen Sie: H(n, m, k) = H(n, k, m) (H ist die hypergeometrische Verteilung). A2: Zeigen Sie die De Morgan’schen Regeln: (A ∪ B)c = Ac ∩ B c und (A ∩ B)c = Ac ∪ B c A3: Sei Ω = {1, 2, 3}. Bilden Sie P(Ω) und bestimmen Sie |Ω| und |P(Ω)|. A4: Ω sei eine Grundgesamtheit, A, B, C ∈ P(Ω) seien Ereignisse. Schreiben Sie die folgenden Ereignisse als Mengen: Von den drei Ereignissen A, B, C ereignen sich a) nur A b) A und B, aber nicht C d) wenigstens eines der Ereignisse f) genau eines der Ereignisse h) keines der Ereignisse c) alle drei Ereignisse e) wenigstens zwei der Ereignisse g) genau zwei der Ereignisse i) nicht mehr als zwei Ereignisse. Aufgabenblatt 3 S. 1 SS16 A1: Sei Ω = {1, ..., 6} × {1, ..., 6} die Ergebnismenge eines Werfens mit zwei symmetrischen und unabhängigen Würfeln. Seien folgende Ereignisse gegeben: D : „Augensumme = 6“, E : „Augensumme = 7“, F : „Pasch, d.h. gleiche Zahl auf beiden Würfeln“. Listen Sie diese Ereignisse als Mengen auf und veranschaulichen Sie sie sich in einem geeigneten Diagramm. Sei G die Menge der geraden, U die Menge der ungeraden Würfelzahlen. Berechnen Sie das Wahrscheinlichkeitsmaß P von D, E, F , G × U , U × G. Listen Sie auch die letzten beiden Mengen auf und veranschaulichen Sie sie sich. Wie würde man diese Ereignisse mit Worten beschreiben? A2: Zwei unterscheidbare Würfel werden geworfen. Bekanntlich läßt sich dieses Zufallsexperiment beschreiben durch die Grundgesamtheit Ω = {1, ..., 6}2 . Sei A das Ereignis “ungerade Augensumme“, B das Ereignis “mindestens einer der Würfel zeigt eine 6“. Beschreiben Sie die Ereignisse A ∩ B, A ∪ B, A ∩ B c . Bestimmen Sie die Wahrscheinlichkeiten von A, B, A ∩ B, A ∪ B, A ∩ B c unter der Annahme der Gleichwahrscheinlichkeit aller Elementarereignisse. A3: Sei < Ω, P > W-Raum mit Ω = {1, ..., 6} und P ({1}) = q, P ({2}) = 2q, ..., P ({6}) = 6q; q ist geeignet zu wählen. a) Wie groß ist P ({1}) ? b) Wie groß ist die Wahrscheinlichkeit für das Auftreten einer geraden Zahl? A4: In einem W-Raum < Ω, P > sei: P (A) = 31 , P (B c ) = 41 , A, B ∈ P(Ω). Können die Ereignisse A und B disjunkt sein? A5: Auf einem Notizzettel eines Studenten finden sich die folgenden Ausführungen: „Ω = {a, b, c, d, e} Grundgesamtheit, P sei W-Maß mit P ({a}) := 0.34, P ({b}) := 0.17, P ({c}) := 0.09, P ({d}) := 0.36 Sei A := {a, d, e}, B := {a, c, b}, C := {d, e}; P (A ∩ B) = 0.34; P (B ∩ C) = 0; P (A ∩ C) = 0.43“ Was ist hier fehlerhaft? Korrigieren Sie! Aufgabenblatt 3 S. 2 SS16 A6: Ein Spielautomat besitzt zwei Scheiben, die beide Zahlen zwischen 1 und 4 anzeigen können (Die Grundgesamtheit ist also {1, 2, 3, 4} × {1, 2, 3, 4}). Der Mechanismus führt dazu, daß die möglichen Kombinationen mit folgenden Wahrscheinlichkeiten auftreten (die Zeilen entsprechen wie üblich den Zahlen auf der ersten Scheibe, die Spalten denen auf der zweiten): 1 2 3 4 1 .1 .05 .09 .06 2 3 4 .02 .03 .05 .2 .01 .04 .05 .1 .01 .03 .06 .1 Es sei A das Ereignis „Beide Scheiben zeigen die gleiche Zahl“, B das Ereignis „Die Summe ist (echt) größer als 3“ und C das Ereignis „Die zweite Scheibe zeigt eine gerade Zahl“. a) Geben Sie folgende Ereignisse (durch Aufzählen ihrer Elemente) an und berechnen Sie ihre Wahrscheinlichkeiten: P (A ∩ B), P ((A ∪ C c ) ∩ B) b) Berechnen Sie P (C|A) und P (B c |C). A7: An einer unbeleuchteten Tankstelle stehen vier Zapfsäulen: A, B, C und D. Ein Autofahrer, der tanken will, muß eine zufällig auswählen. Die Anordnung der Säulen ist so, daß die Säule A mit einer Wahrscheinlichkeit von 20% ausgewählt wird, die Säulen B und C mit 40% bzw. 30% Wahrscheinlichkeit. Das Benzin hat eine unterschiedliche Qualität: Benzin aus A führt in 10% der Fälle zu einem Motorschaden (und damit zum Stillstand des Automobils), bei B beträgt diese Wahrscheinlichkeiten 20%, und bei C und D kommt ein Schaden in 40% der Fälle vor. a) Wie wahrscheinlich ist es, daß ein Auto nach dem Tanken einen Motorschaden bekommt? b) Wie groß ist die Wahrscheinlichkeit, daß ein Auto von Säule A getankt hat, wenn es stehenbleibt? Wie groß sind die entsprechenden Wahrscheinlichkeiten für B, C und D? Aufgabenblatt 3 S. 3 SS16 c) Zwei Statistiker schlagen Entscheidungsregeln für die Frage vor, aus welcher Säule gezapft wurde: Der erste vermutet bei Motorschaden die Säule B und andernfalls die Säule C, der zweite vermutet bei Motorschaden die Säule C und sonst die Säule A. Bei welcher Entscheidungsregel ist die Wahrscheinlichkeit einer falschen Entscheidung geringer? (Für ganz Schlaue - ohne Wertung: Wissen Sie eine noch bessere Regel?) d) Eine weitere ebenfalls unbeleuchtete Tankstelle verkauft die gleichen Sorten Benzin (die (bedingten) Wahrscheinlichkeiten für Motorschaden ändern sich also nicht), nur hat sie die entsprechenden Säulen anders aufgestellt, so daß die Wahrscheinlichkeiten, eine bestimmte Säule auszuwählen, anders sind als bei der ersten Tankstelle. Bei dieser Tankstelle sind die bedingten Wahrscheinlichkeiten, aus A, B, C oder D getankt zu haben, falls das Auto stehenbleibt, alle gleich groß. Wie wahrscheinlich ist bei dieser Tankstelle ein Motorschaden? A8: Drei äußerlich nicht unterscheidbare Kästen enthalten jeweils zwei Münzen. Der erste enthalte zwei Goldmünzen, der zweite zwei Silbermünzen, der dritte sowohl eine Gold als auch eine Silbermünze. Nun wird zufällig ein Kasten gezogen und daraus blind zufällig eine Münze entnommen. Wie groß ist die Wahrscheinlichkeit, daß die zurückbleibende Münze aus Gold ist, wenn die entnommene aus Gold war? A9: Ein amerikanisches TV-Unterhaltungsquiz hat als Höhepunkt folgendes Spiel: Der Kandidat wird vor drei Garagentüren geführt, von denen hinter einer ein Auto steht (hinter den beiden anderen eine Ziege). Der Kandidat darf eine Tür auswählen. Diese wird jedoch nicht geöffnet, vielmehr öffnet der Quizmaster eine andere Tür, hinter der eine Ziege steht. Daraufhin darf der Kandidat nochmal zwischen den beiden verbliebenen Türen wählen. Falls er die Tür mit dem Auto wählt, gehört das Auto ihm. Vergleichen Sie die Erfolgsaussichten der beiden folgenden Strategien mit Hilfe der Formel von der totalen Wahrscheinlichkeit: 1) Der Kandidat bleibt bei seiner ersten Wahl 2) Der Kandidat wählt die andere Tür A10: Für zwei Ereignisse A und B gelte P (A) = 1/4, P (B) = 1/3. a) Wie groß ist P (A ∪ B), falls A und B unabhängig sind? b) Wie groß ist P (Ac ∪ B), falls A und B disjunkt sind? c) In einem anderen W-Raum gelte für zwei Ereignisse A und B Aufgabenblatt 3 P (A) = .8, S. 4 P (B) = .5, SS16 P (A ∪ B) = .9 Sind die Ereignisse A und B unabhängig? d) In einem weiteren W-Raum seien drei Ereignisse A, B und C (gemeinsam) unabhängig und es gelte: P (A ∩ B) = .3, P (A ∩ C) = .2, P (C) = .4 Wie groß ist die Wahrscheinlichkeit, daß genau zwei dieser Ereignisse eintreten? Aufgabenblatt 4 S. 1 SS16 A1: a) Für zwei unabhängige Ereignisse A und B gelte: P (A) = .3 und P (B) = .6. Wie groß ist P (A|B)? b) Wie groß ist für die beiden Ereignisse aus Teil a) die Wahrscheinlichkeit P (A\B)? c) Wie groß ist für diese Ereignisse die Wahrscheinlichkeit P (Ac ∩ B c ) (E c bezeichnet das Gegenereignis eines Ereignisses E)? d) Für zwei weitere unabhängige Ereignisse C und D gelte P (C ∪ D) = 1. Zeigen Sie, daß dann mindestens eines der beiden Ereignisse Wahrscheinlichkeit 1 haben muß. A2: Beweisen Sie: Sind A, B unabhängig und disjunkt, so gilt: P (A) = 0 oder P (B) = 0. A3: Sei Ω := {a, b, c, d} Laplaceraum, seien A := {a, b}, B := {a, c}, C := {b, c} Ereignisse. Zeige: A, B, C sind zwar paarweise unabhängig, aber nicht gemeinsam unabhängig. A4: Für drei Ereignisse A, B und C gelte: A und C sind disjunkt und B und C sind unabhängig. Ferner sei bekannt: P (C) = .6, P (A ∩ B) = .1, P (B ∩ C) = .3 und P (A ∪ B ∪ C) = 1. Bestimmen Sie P (B), P (A), P ((A ∪ B)\C) und P ((A ∩ B)|(A ∪ B)) (Ein Venn-Diagramm könnte nützlich sein.) A5: Gegeben sei die Situation aus Aufgabe 1 in Aufgabenblatt 3. Bestimmen Sie P (F |D), P (D|F ), P (D|U × U ), P (U × U |D), P (U × U |E). Beschreiben Sie diese Ereignisse auch in Worten. A6: Sei < Ω, P > der W-Raum für das Werfen mit zwei Würfeln. (Ω = {1, ..., 6} × {1, ..., 6}, Laplaceraum). Gegeben seien die Zufallsvariablen X : Ω → R; X(ω1 , ω2 ) := ω1 + ω2 (Augensumme), Y : Ω → R; Y (ω1 , ω2 ) := ω1 (Augenzahl des ersten Würfels), Z : Ω → R; Z(ω1 , ω2 ) := ω2 (Augenzahl des zweiten Würfels). Aufgabenblatt 4 S. 2 SS16 a) Berechnen Sie P (X > 7.5) ! b) Sei C = (1.3, 5.8). Berechnen Sie P (X ∈ C)! A7: Sei < Ω, P > der W-Raum für ein Schildkrötenrennen mit Ω = {a, b, c, d, e} (Schildkröten) und der Siegwahrscheinlichkeit P . Sei f die zu P gehörende W-Funktion. Auf den Sieg der Schildkröten können Wetten abgeschlossen werden. Der Wetteinsatz beträgt 1 DM. Es gibt zwei verschiedene Wettmöglichkeiten, die durch die Zufallsvariablen X und Y dargestellt werden: X und Y ordnen jeder Schildkröte den Gelderhalt bei ihrem Sieg zu. Die Werte entnehme man der folgenden Tabelle: ω f (ω) X(ω) Y (ω) a 0.4 0 2 0 1 b 0.2 c 0.2 1 0 d 0.1 2 0 e 0.1 4 0 Bestimmen Sie die Wahrscheinlichkeitsfunktionen fX , fY ! A8: Bestimmen Sie zu den Situationen aus Aufgabe 6 und Aufgabe 7 die gemeinsame Verteilung der Zufallsvariablen X und Y samt Randverteilungen! Aufgabenblatt 5 S. 1 SS16 A1: Gegeben sei die Situation aus Aufgabe 6 in Aufgabenblatt 4. Bestimmen Sie a) Die bedingten Verteilungen von X unter den Bedingungen Y = 2 und Y =5 b) Die bedingten Verteilungen von Y unter den Bedingungen X = 4, X = 7 und X = 10. A2: Die Zva’en X, Y besitzen eine gemeinsame W-Verteilung, die folgendermaßen festgelegt sei: X\Y 1 2 3 1 2 3 6/32 1/32 1/32 12/32 2/32 2/32 6/32 1/32 1/32 Bestimmen Sie die Randverteilungen sowie die bedingten W-Verteilungen. Sind die Zva’en X und Y voneinander unabhängig? A3: Man werfe gleichzeitig zwei Würfel, einen roten und einen blauen. Bezeichnen Sie mit X1 die Zva, die jedem Augenpaar die Augenzahl des roten, mit X2 diejenige, die jedem Augenpaar die Augenzahl des blauen Würfels zuordnet. Definieren Sie weiterhin die Zva’en Y1 := X1 + X2 , Y2 := X1 − X2 . Die Würfel seien symmetrisch und unabhängig. a) Beschreiben Sie die zugrundeliegende Grundgesamtheit: welche Werte können die Zva X1 , X2 , Y1 , Y2 annehmen? Geben Sie für die Zva’en X1 , X2 , Y1 , Y2 jeweils die Wahrscheinlichkeitsverteilungen an; stellen Sie diese Verteilungen graphisch dar! b) Geben Sie die gemeinsame W-Verteilung von X1 und X2 sowie die von Y1 und Y2 an! c) Sind die Variablen X1 , X2 stochastisch unabhängig? Sind die Variablen Y1 , Y2 stochastisch unabhängig? d) Geben Sie die bedingte W-Verteilung von Y1 an für Y2 = 0! e) Berechnen Sie die folgenden Wahrscheinlichkeiten: a) P (Y2 = 0) b) P (Y1 = 12, Y2 = 0) c) P (2 ≤ Y1 ≤ 5, −1 ≤ Y2 ≤ 1) Aufgabenblatt 5 S. 2 SS16 d) P (2 ≤ Y1 ≤ 12, Y2 = 0) e) P (2 ≤ Y1 ≤ 12 | Y2 = 0) f) P (−5 ≤ Y1 ≤ 1, −5 ≤ Y2 ≤ 1) g) P (−5 ≤ Y1 ≤ 1 oder − 5 ≤ Y2 ≤ 1) A4: X, Y seien unabhängige Zufallsvariablen mit folgendermaßen definierten WVerteilungen: X 1 2 PX 0.6 0.4 Y PY 0 1 2 0.2 0.5 0.3 a) Man bestimme die gemeinsame W-Verteilung der Zufallsvariablen X und Y. b) Man bestimme die W-Verteilung der Zufallsvariablen X + Y, X · Y . A5: Sei Ω eine Population. Auf Ω 0, X : Ω → R mit X(p) := 1, 0, Y : Ω → R mit Y (p) := 1, seien zwei Zva’en X und Y so definiert: falls Person p Nichtraucher sonst falls Person p nicht krebskrank sonst Die gemeinsame W-Verteilung von X und Y sei durch folgende Tafel gegeben: X\Y 0 1 0 1 0.29 0.01 0.66 0.04 Man bestimme: a) die Randverteilungen PX , PY b) die bedingten W-Verteilungen. A6: Unter den Kranken einer psychiatrischen Abteilung kommen die Körperbautypen (K) pyknisch (p), leptosom (l) und athletisch (a) sowie die Erkrankungen (E) Schizophrenie (s), manisch-depressives Irresein (m) und Epilepsie (e) vor. In einer Stichprobe von 20 Patienten findet man: Aufgabenblatt 5 Patient K 1 p 2 l 3 p 4 l 5 p E m m s s e S. 3 Patient K E 6 l e 7 p m 8 a e 9 a m 10 l m SS16 Patient K 11 l 12 a 13 p 14 a 15 a E s e e s s Patient K E 16 a e 17 p s 18 l s 19 a e 20 a m Erstellen Sie die Kontingenztafeln der absoluten und relativen Häufigkeiten der beiden Variablen mit Randverteilungen. Zeichnen Sie Diagramme für die absoluten Häufigkeiten von K und E. Zeichnen Sie die Diagramme für die gemeinsame Verteilung der beiden Variablen (relative Häufigkeiten). Zeichnen Sie ferner alle Diagramme der bedingten relativen Häufigkeiten. Überzeugen Sie sich davon, dass die relativen Randhäufigkeiten die gewichteten Mittel der bedingten relativen Häufigkeiten sind. A7: Wie sehen die unterschiedlichen Diagramme der relativen Häufigkeiten und bedingten relativen Häufigkeiten von zwei Variablen qualitativ aus, wenn Unabhängigkeit vorliegt? Wie sehen sie qualitativ bei vollständiger Abhängigkeit aus? Gibt es Beziehungen zu den Diagrammen der Randverteilungen? Aufgabenblatt 6 S. 1 SS16 A1: Welche der folgenden Aussagen ist richtig? a) Die Anordnung der Variablenstufen in Kontingenztafeln hat einen Einfluß auf den Wert des ϕ2 -Koeffizienten, da die bedingten relativen Häufigkeiten bei unterschiedlicher Anordnung der Variablenstufen unterschiedlich ausfallen. b) Die Anordnung der Variablenstufen in Kontingenztafeln hat keinen Einfluß auf den Wert des ϕ2 -Koeffizienten. c) Die Anordnung der Variablenstufen in Kontingenztafeln hat nur dann einen Einfluß auf den ϕ2 -Koeffizienten, wenn die Zeilenzahl von der Spaltenzahl differiert. A2: Betrachten Sie die Kontingenztafel (mit absoluten Häufigkeiten): B1 a c A1 A2 Zeigen Sie: ϕ2 = B2 b d (ad−bc)2 (a+b)(c+d)(a+c)(b+d) Die Rechnung ist etwas kompliziert; wenn Sie die Lösung nicht in vertretbarer Zeit erreichen, nehmen Sie nur die Formel zur Kenntnis. A3: Welche Aussagen sind richtig? a) ϕ0 = 0 genau dann, wenn die die beiden Variablen unabhängig voneinander sind. b) ϕ0 = 0, falls die beiden Variablen unabhängig voneinander sind. Die Umkehrung ist i.a. nicht richtig. c) Die beiden Variablen sind unabhängig voneinander, falls ϕ0 = 0; Die Umkehrung ist i.a. nicht richtig. A4: a) Die Verteilung von zwei Variablen X und Y in einer Stichprobe ist in einer Kontingenztafel mit relativen Häufigkeiten zusammengefaßt, in der leider einige Zahlen unleserlich geworden sind. X\Y 1 2 3 1 .02 .01 .09 2 3 .10 .4 .02 .39 .22 Aufgabenblatt 6 S. 2 SS16 Ergänzen Sie die restlichen Zahlen und zeichnen Sie ein Schaubild der bedingten relativen Häufigkeitsverteilung von X für Y = 3 b) Von der Kontingenztafel der relativen Häufigkeiten von zwei anderen Variablen U und V ist nur folgender kümmerlicher Rest übriggeblieben: U \V 1 2 1 2 .1 .1 3 .1 1 Allerdings haben Sie folgende Zusatzinformationen: h(U = 1|V = 1) = .5 und h(V = 2|U = 2) = .25. Ergänzen Sie damit den Rest der Tafel! (Kümmern Sie sich zunächst um h(U = 2)!) A5: In einer Stichprobe von 80 Versuchspersonen wurden zwei Variablen erhoben. Aus der Kontingenztafel der absoluten Häufigkeiten sind die folgenden Zahlen bekannt: X\Y 1 2 0 5 2 4 5 20 20 20 80 a) Vervollständigen Sie die Tafel! b) Berechnen Sie den ϕ2 , ϕ0 und χ2 ! c) Wie müßte das Innere einer Kontingenztafel aussehen, die die gleichen Randverteilungen hat wie die angegebene und zu einem χ2 -Wert von 80 führt? d) Eine Kontingenztafel mit 4 bzw. 5 Ausprägungen der beiden Variablen führt zu einem χ2 -Wert von 150. Wieviele Versuchspersonen wurden dann mindestens erfasst? A6: a) Berechnen Sie den ϕ2 , ϕ0 und χ2 für die folgende Kontingenztafel: X\Y 0 1 2 0 6 2 2 1 6 8 6 2 4 14 12 3 4 6 30 b) Ein Forscher entdeckt in seinen Aufzeichnungen die Randverteilungen der absoluten Häufigkeiten einer Kontingenztafel: Aufgabenblatt 6 x 1 n(X = x) 6 S. 3 2 5 3 9 SS16 y n(Y = y) 0 8 1 ? Er meint sich dunkel zu erinnern, daß die Variablen in der Stichprobe entweder unabhängig oder vollständig abhängig waren. Kann das sein, oder ist beides unmöglich? A7: Der durchschnittliche IQ einer Gruppe von 40 Personen sei 90, der einer anderen Gruppe von 60 Personen 120. Wie groß ist der durchschnittliche IQ aller 100 Personen? Warum kann die Lösung als gewichtetes Mittel interpretiert werden? A8: Es wäre schön, wenn die folgende Aussage allgemeine Gültigkeit hätte: Zwischen dem ersten und dritten Quartil (jeweils einschließlich) liegen mindestens 50 % der Daten. Ob die Aussage richtig ist, hängt auch von der Anzahl der Elemente der Datenreihe ab. Untersuchen Sie getrennt die Fälle, daß der Rest bei Division der Anzahl der Elemente durch 4 den Wert 0, 1, 2, 3 hat. In welchen von diesen Fällen ist die Aussage immer richtig? Konstruieren Sie für die anderen Fälle Beispiele, in denen die Aussage falsch ist und solche, in denen sie richtig ist. A9: Prüfen Sie für das Beispiel mit den Boxplots für drei Gruppen aus der Veranstaltung nach, ob die Zeichnungen alle korrekt sind (auch die Abbildung mit Mittelwerten ± Standardabweichung). A10: Die Jahreseinkünfte von vier Personen betragen 10.000 DM, 12.000 DM, 13.000 DM und 60.000 DM. Berechnen Sie Mittelwert und Median. In welchem Sinne ist hier der Median typischer für die vier Einkommen als der Mittelwert? A11: Man gebe diejenige lineare Funktionsgleichung an, deren Gerade durch die Punkte (2, −3) sowie (4, 5) läuft. Wo schneidet diese Gerade die y-Achse? Welche Steigung besitzt sie? Aufgabenblatt 7 A1: Wann gilt 1 n n P S. 1 SS16 (xi − Mx )2 = 0? i=1 A2: Zeigen Sie, daß für jede Datenreihe mit Mittelwert M und Median M d folgendes gilt: n 1X |xi − M d| n i=1 n ≤ 1X |xi − M | n i=1 Wenn Sie mit der allgemeinen Aussage Schwierigkeiten haben, so untersuchen Sie die Datenreihe 1, 2, 3, 10, um eine Idee für den allgemeinen Fall zu bekommen. A3: Es seien a, b ∈ R mit a ≤ b. Es gelte a ≤ xi ≤ b für alle 1 ≤ i ≤ n. Zeigen Sie, dass daraus a ≤ MX ≤ b folgt. A4: In einer Klausur sitzen 30 Studentinnen und 20 Studenten. Die Ergebnisse werden getrennt ausgewertet: Der Mittelwert der Ergebnisse bei den Studentinnen ist 20 bei einer Streuung von 5, der Mittelwert der Studenten ist dagegen nur 15 bei einer Streuung von 10. a) Wie groß ist der Mittelwert der Gesamtgruppe? b) Wie groß sind Varianz und Streuung in der Gesamtgruppe? (Hinweis: Ermitteln Sie zunächst den Mittelwert der quadrierten Werte!) A5: Es liege folgende Meßwertreihe vor: 8; 2; 10; 8; 4; 0; 2; 6; 2; 14; 6; 10 a) Bestimmen Sie Mittelwert und Varianz! b) Wie groß sind Modus und Median? c) Ein Statistikdozent möchte den Aufwand beim Erstellen einer Statistikklausur geringhalten und übernimmt die Daten einer Aufgabe aus dem letzten Jahr, nachdem er sie der linearen Transformation y = 2x − 2 unterworfen hat. Wie groß wären der Mittelwert und die Varianz der früheren Daten gewesen, wenn die transformierten Daten die aus dieser Aufgabe wären? d) Eine Datenreihe liefert einen Mittelwert von 5 und eine Streuung von 6. Die Daten sollen zum Vergleich mit einer anderen Untersuchung so linear transformiert werden, daß der neue Mittelwert gleich 10 und die neue Streuung gleich 3 ist. Wie muß dann die lineare Transformation aussehen? Ist die Lösung eindeutig? Aufgabenblatt 7 S. 2 SS16 A6: Gegeben sei eine Datenreihe mit Mittelwert MX und Streuung SX Man suche solche a, b ∈ R, daß MaX+b = 100, SaX+b = 15. Verifizieren Sie Ihr Ergebnis für MX = 50, SX = 10! (Diese Transformation wird z.B. verwendet, wenn man Intelligenzwerte auf einer T-Skala in solche einer IQ-Skala umrechnet.) A7: a) Forscher haben 51 Jahre lang das Klima in einem Wüstenstaat beobachtet. Die Variable X gibt die Anzahl der Tage im Jahr an, an denen Regen fällt. Der Mittelwert von X war 5. Schätzen Sie die Anzahl der Jahre ab, in denen es an mindestens 20 Tagen geregnet hat! b) Bei einem neu entwickelten Intelligenztest hat eine Stichprobe von 200 Personen einen Mittelwert von 100 und eine Standardabweichung von 10 ergeben. Können Sie die Anzahl der Personen abschätzen, die einen Testwert erreicht haben, der größer als 85 und kleiner als 115 ist? A8: Ein Student A erreicht in einer Klausur 21 Punkte. Der Mittelwert dieser Klausur betrug 17, die Streuung 2 Punkte. Wieviel Punkte muß ein Student in einer zweiten Klausur mit Mittelwert 16 und Varianz 9 mindestens erreichen, um mindestens so gut zu sein wie Student A in der ersten Klausur? A9: a) Geben Sie je ein Beispiel für Meßwertreihen x1 , ..., xn und y1 , ..., yn , die die folgenden Bedingungen erfüllen: 2 > SY2 Range (X) < Range (Y) und SX 2 > SY2 Range (X) = Range (Y) und SX 2 > SY2 Range (X) > Range (Y) und SX b) Geben Sie zwei Meßwertreihen (n=5) an, die den gleichen Mittelwert und die gleiche Varianz besitzen, ansonsten aber verschieden sind. A10: Die Variablen X und Y seien unabhängig. Welche Aussage ist dann richtig? 2 2 a) SX−Y = SX − SY2 2 2 b) SX−Y = SX + SY2 2 2 c) SX−Y = SX + SY2 + 2 KovX,Y A11: An einer Stichprobe seien die Variablen X und Y erhoben worden. Dabei habe man folgende Größen errechnet: MX = 50, SX = 5, MY = 30, SY = 10, KovX,Y = 25 Berechnen Sie: Aufgabenblatt 7 2 a) SX+Y b) rX,Y S. 3 SS16 c) MX·Y 2 A12: Sei rX,Y = 0.8, SX = 10, SY = 15, MX = 100, MY = 60. Wie groß ist MX·Y ? A13: In einer Untersuchung an 100 Personen habe man die Meßwerte zweier Variablen X, Y erhoben. Die Ergebnisse seien in der folgenden Häufigkeitstabelle zusammengefaßt: Y \X -2 -1 +1 +2 1 25 0 0 25 4 0 25 25 0 a) Berechnen Sie die Korrelation zwischen den Variablen X, Y . b) Tragen Sie die Ergebnisse in ein Koordinatensystem ein. c) Berechnen Sie den ϕ2 - und den χ2 -Koeffizienten. Was erkennt man an dieser Übungsaufgabe? A14: 10 Erstsemester der Psychologie haben sich 1991 in das Tutorium „Grande“ für Statistik I eingetragen. Jeder Teilnehmer mußte am Ende des Semesters angeben, wie viele Stunden er das Tutorium besucht hat. Gleichzeitig wurde eine Statistik-Klausur geschrieben. Dem Tutor fiel auf, daß drei Studenten, die das Tutorium nie besucht hatten, überdurchschnittlich gute Arbeiten abgegeben hatten, während viele Studenten, die oft anwesend gewesen waren, schlecht abgeschnitten hatten. Den Tutor plagten Selbstzweifel. Er nahm an, daß sein Tutorium so schlecht sei, daß sich häufiger Besuch negativ auf die Klausurergebnisse auswirke. Um dies zu überprüfen, stellte er eine Tabelle auf mit 10 Meßwertpaaren. X = Tutoriumsbesuch in Stunden (max = 12) Y = Klausurergebnis in Punkten (max = 50). X Y 12 0 2 50 0 0 40 45 5 5 10 20 15 10 1 12 40 1 4 30 a) Berechnen Sie die Korrelation! b) Interpretieren Sie das Ergebnis im Hinblick auf die Annahme des Tutors! Aufgabenblatt 8 S. 1 SS16 A1: Gegeben seien drei Variable X, Y, Z mit Mittelwerten 2, 3, 5 und Kovarianzmatrix 16 10 0 10 25 3 0 3 9 a) Bestimmen Sie die zugehörige Korrelationsmatrix. b) Berechnen Sie die den Mittelwert und die Varianz von U := 2X + 3Y − Z + 1. c) Wie groß ist die Korrelation von U und X − Y + 2Z + 5? A2: Gegeben sei die Korrelationsmatrix von drei Variablen X, Y, Z mit Mittelwerten 1, 5, 2 und mit SX = 2, SY = 5, SZ = 1: 1 0.5 0.5 0.5 1 0.4 0.5 0.4 1 a) Bestimmen Sie die zugehörige Kovarianzmatrix. b) Jetzt werden zwei neue Variable gebildet: U := X + 2Y − Z + 2 und V := 2X + 3Z − 4. Wie groß sind die Mittelwerte und Streuungen der beiden neuen Variablen? Wie groß ist ihre Kovarianz und ihre Korrelation? A3: Zum Thema optimaler Entscheidungsregeln. Gegeben sei eine Krankheit (Ereignisse: Vorliegen: K + , Nichtvorliegen: K − ) und ein Test (Ergebnisse: T + : positiv (deutet auf Krankheit hin) und T − : negativ). Der Test sei durch folgende bedingte Wahrscheinlichkeiten charakterisiert: P(T + |K + ) = .99, P(T − |K − ) = .9. Der Anteil der Kranken sei p (beispielsweise .05). Gesucht ist nun eine Entscheidungsregel, die optimal ist. Dies Problem wird natürlich erst dann sinnvoll, wenn präzisiert wird, was unter Optimalität zu verstehen ist. Eine Entscheidungsregel sei dabei eine Vorschrift, die jedem möglichen Testergebnis die Diagnose „K + “ (für „krank“) oder „K − “ (für „gesund“) zuordnet; eine weitere Entscheidungsmöglichkeit („weiß nicht“) sei nicht vorgesehen (unterscheide also: K + bedeutet: Krankheit liegt vor, „K + “ hingegen: Krankheit wird diagnostiziert). Aufgabenblatt 8 S. 2 SS16 Eine mögliche (wohl nicht besonders sinnvolle) Entscheidungsregel wäre beispielsweise (T + →„K − “ , T − →„K + “). Es liegt dabei die Vermutung nahe, dass (T + →„K + “ , T − →„K − “) die einzig sinnvolle Entscheidungsregel ist (was schon durch die Bezeichnungen T + und T − nahegelegt wird), ob dies stimmt, ist jedoch hier gerade die Frage. Sinnvoll ist es vielleicht, Kurzbezeichnungen für die Regeln einzuführen, beispielsweise, indem nacheinander die Entscheidungen bei T + und T − aufgeführt werden, wobei + für „K + “ und − für „K − “ steht. Dann könnte man die beiden eben betrachteten Regeln beispielsweise mit R−+ und R+− abkürzen. a) Welches sind die möglichen Entscheidungsregeln und wieviele gibt es? Machen Sie sich klar, dass man die Entscheidungsregeln sozusagen in ‚komplementäre‘ Paare aufteilen kann (gegenteilige Entscheidungen). b) Geben Sie die Wahrscheinlichkeiten der vier Kombinationen K + ∩T + etc. als Funktion von p in einer Tabelle 1 an (rechnen Sie sie ggf. zunächst für das konkrete p = .05 aus) (Hinweis: es müssen sich lineare Transformationen von p ergeben). Sie können mit Hilfe dieser Tabelle übrigens dann schnell (mit einer zusätzlichen Division, wenn Sie erst noch die Randwahrscheinlichkeiten bestimmen) die bedingten Wahrscheinlichkeiten P(K + |T + ) etc. als Funktion von p oder konkret für p = .05 angeben. c) Nun mögen die Vor- und Nachteile der möglichen Entscheidungen quantitativ fassbar sein (Nutzen und Kosten), beispielsweise durch die Werte in der folgenden Tabelle 2: K+ K− „K + “ „K − “ 10 −20 −5 0 Hier ist also der Schaden besonders groß (−20), wenn ein Kranker als gesund diagnostiziert wird. Der Einfachheit halber seien die Einträge in der Tabelle als Nutzen bezeichnet – ein negativer Nutzen sind dann eben entsprechende Kosten. Rechnen Sie nun für alle möglichen Entscheidungsregeln den Erwartungswert des Nutzens aus! Es müssen sich dabei überall lineare Funktionen der Basiswahrscheinlichkeit p ergeben. (Hinweis: Bestimmen Sie zunächst für jede Entscheidungsregel getrennt für alle 4 Zellen der Tabelle 2 die Wahrscheinlichkeiten (also die Wahr- Aufgabenblatt 8 S. 3 SS16 scheinlichkeit für K + ∩ „K + “ etc.). Benutzen Sie dazu die Tabelle 1 des vorangehenden Aufgabenteils.) d) Skizzieren Sie grob die Funktionen, die für die jeweiligen Entscheidungsregeln den Erwartungswert des Nutzens in Abhängigkeit von p angeben, in einem gemeinsamen Schaubild (skalieren Sie dabei die y-Achse passend). Es sollte nun klar werden, dass die ‚optimale‘ Regel, die den Erwartungswert maximiert, für unterschiedliche Werte von p verschieden ist. Welche Regel in diesem Sinn optimal ist, hängt also von der Basisrate p ab. Bestimmen Sie die Umschlagspunkte, also diejenigen Werte von p, bei denen sich die optimale Entscheidungsregel ändert, und zusätzlich den Erwartungswert des Nutzens der optimalen Regel in diesen Punkten; bestimmen Sie diesen Erwartungswert auch für p = 0 und p = 1. e) Führen Sie dasselbe auch für die folgende Nutzenfunktion durch: K+ K− „K + “ „K − “ 1 0 0 1 Wie ist der Erwartungswert jetzt zu interpretieren? Beachten Sie, dass die in diesem neuen Sinn optimale Entscheidungsregel nicht notwendig mit der aus dem letzten Aufgabenteil übereinstimmt, immerhin für bestimmte Basisraten – für welche? Bemerkenswert – wenn auch banal – also das Ergebnis: Was optimal ist, hängt davon ab, wie man Optimalität definiert. A4: Wie wahrscheinlich ist es höchstens, bei einer fairen Wette mit Einsatz 1 DM mindestens 10 DM ausgezahlt zu bekommen? (Eine Wette ist fair, wenn der Erwartungswert des Nettogewinns 0 ist.) A5: Wie wahrscheinlich ist es höchstens, bei einem fairen Lotteriespiel mit einem Einsatz von 10 DM mindestens 1 Million DM zu gewinnen? (Vgl. Aufgabe 4 zum Begriff ‚fair‘.) A6: In der Situation von Aufgabe 4 in Aufgabenblatt 5 bestimme man E(X), E(Y ), E(X + Y ) und E(X · Y ). A7: Zwei Zvan X und Y besitzen folgende gemeinsame Verteilung: X\Y 0 1 1 .1 .1 2 .2 .1 3 .4 .1 Aufgabenblatt 8 S. 4 SS16 a) Zeichnen Sie die Verteilungsfunktion der Variablen Z := Y − X! b) Wie groß ist der Erwartungswert von Z? c) Wie groß sind Varianz und Streuung von Z? d) Wie groß sind Erwartungswert und Streuung der Variablen W := −2Z + 3? A8: a) Eine Zufallsvariable hat die Varianz 16. Wie groß ist die Wahrscheinlichkeit, daß sie einen Wert annimmt, der vom Erwartungswert einen Abstand von mindestens 8 hat, höchstens? b) Ein Morgenmuffel gibt sich bei der Auswahl des Käses, den er zum Frühstück verzehrt, nicht viel Mühe. Er ißt einfach die Sorte, die ihm zufällig in die Hände fällt. Seine Freundin, die sehr auf ihre Figur achtet und deren Lieblingsfach die Statistik ist, beobachtet ihn längere Zeit und kommt zur Überzeugung, daß die Wahrscheinlichkeit, daß der Fettgehalt des Käses mindestens 60 Prozent beträgt, gleich 1/5 ist. Es sei X die Zufallsvariable ’Fettgehalt (in Prozent) des zufällig gewählten Käses’. Können Sie eine Aussage über den Erwartungswert von X machen? A9: Beim Einkaufen hören zwei Tutorinnen zufällig eine russische Unterhaltung, in der es anscheinend um Statistik geht. a) Herr M. glaubt, dass der Erwartungswert der Variable X: ‚an einem Tag verkaufte Schokoriegel‘ gleich 23 ist. Schätzen Sie – unter der Voraussetzung, dass Herr M. recht hat – die Wahrscheinlichkeit ab, dass X mindestens den Wert 30 annimmt. b) Herr T. hat zusätzlich eine Vorstellung über die Varianz von X; er denkt, dass sie gleich 16 ist. Schätzen Sie unter dieser Voraussetzung die Wahrscheinlichkeit ab, dass die Zahl verkaufter Schokoriegel zwischen 16 und 30 (jeweils einschließlich) liegt. A10: Betrachten Sie die folgenden Meßwertpaare: X 0 0 1 2 3 Y 2 3 4 5 5 Die Geraden y = 2 · x + 2 und y = x + 3 werden zur Beschreibung der Daten vorgeschlagen. Fertigen Sie eine Punktwolke an, zeichnen Sie obige Geraden sowie die Regressionsgerade von Y bzgl. X ein und berechnen Sie für jede der drei Fälle die Summe der quadrierten Abweichungen. Vergleichen Sie die Ergebnisse! Aufgabenblatt 8 S. 5 SS16 A11: Angenommen, in zwei unterschiedlichen Untersuchungen habe man jeweils die Variablen X und Y erhoben. In beiden Fällen habe man die gleichen Regressionsgewichte b gefunden. Folgt daraus, daß in beiden Untersuchungen auch die Korrelationen zwischen X und Y identisch waren? A12: In einer Situation der einfachen linearen Regression zeichne man (in Gedanken) Parallelen zur Regressionsgerade, die von dieser einen Abstand (in y-Richtung gemessen) von kSY.X nach oben bzw. unten haben (k > 0 ist vorgegeben). Zeigen Sie: der Anteil der Punkte in dem durch die beiden neuen Geraden begrenzten Streifen ist mindestens 1 − 1/k 2 (die Begrenzungsgeraden sollen dabei nicht zum Streifen gehören). Hinweis: Tschebyscheffsche Ungleichung für den Fehler. A13: Vier Personen liefern in Variable X die Werte 2, 2, 4, 4 und in Variable Y (in der gleichen Reihenfolge) die Werte 1, 3, 3, 5. Zeichnen Sie zunächst die Punktwolke. Zeigen Sie dann, dass es auf die Frage nach einer optimalen linearen Vorhersagefunktion keine eindeutige Lösung gibt, wenn Sie als Optimalitätskriterium nicht die Summe der quadrierten Abweichungen wählen, sondern die Summe der absoluten Abweichungen. Genauer: Zeigen Sie, dass alle Geraden in diesem Sinn optimal sind, die für x = 2 zwischen y = 1 und y = 3 verlaufen und für x = 4 zwischen y = 3 und y = 5. Welches ist die optimale Gerade im Sinne der kleinsten Quadrate? Aufgabenblatt 9 S. 1 SS16 A1: Ein Psychologe stellt die These auf, daß die Variable Y : ’Dogmatismus’ mit der Variablen X : ’durchschnittlicher täglicher Fernsehkonsum von Informationssendungen’ zusammenhängt. Dabei sollen Menschen, die mehr Informationssendungen sehen, weniger dogmatisch sein. An sechs Versuchspersonen hat er folgende Werte erhoben: X Y 1 7 2 6 1 6 2 3 4 4 2 4 a) Berechnen Sie die Gleichung der Regressionsgeraden (Regression von Y auf X)! b) Stellen Sie die Daten graphisch dar und zeichnen Sie die Regressionsgerade ein! c) Welcher Wert würde für jemanden vorhergesagt, der 5 Stunden täglich Informationssendungen sieht? Wie groß ist der Standardschätzfehler? d) Stellen Sie sich nun vor, alle Versuchspersonen würden 5 Stunden täglich fernsehen, wobei sie in der nach dem Sehen der Informationssendungen verbleibenden Zeit Unterhaltungssendungen anschauen. Die Variable Z gebe den täglichen Konsum an Unterhaltung an. Wie groß ist die Korrelation zwischen X und Z und wie lautet die Regressionsgleichung der Regression von Y auf Z? (Beantworten Sie diese Fragen möglichst ohne nennenswerten Rechenaufwand!) A2: Die folgenden Meßwertpaare werden erhoben: X −1 −1 +1 +1 Y 0 −2 0 +2 2 Berechnen Sie: MX , MY , MX·Y , SX , SY2 , KovX,Y , rX,Y ! Erstellen Sie sowohl die Regressionsgleichungen für Y bzgl. X als auch für X bzgl. Y . Stellen Sie beide graphisch dar (auch die Punktwolke), jeweils in einem eigenen Koordinatensystem. Zeichnen Sie dann zum Vergleich beide Regressionsgeraden im gleichen Koordinatensystem ein. Vergleichen Sie 2 2 SY.X mit SX.Y . A3: Bestimmen Sie die Lösungsmenge des folgenden linearen Gleichungssystems: x + y + z = 4 x − y + 2z = 4 2x + z = 4 Aufgabenblatt 9 S. 2 SS16 A4: An fünf Personen sind drei Variablen X, Y und Z erhoben worden: X: Y: Z: 5 0 12 0 5 5 5 12 4 8 6 -10 8 4 6 Zur Vorhersage von Z aus X und Y werden zwei Regeln vorgeschlagen: z = x − y + 6 und z = x + y − 6. Vergleichen Sie die beiden Regeln über die Summe der quadrierten Abweichungen! Wie lautet die optimale Regel, und wie groß ist hier die Summe der quadrierten Abweichungen? A5: Betrachten Sie die einfache lineare Regression als einen Spezialfall der multiplen mit einem Prädiktor. Wie sehen dann die Normalengleichungen aus? Zeigen Sie, dass sich als Lösung das aus der einfachen Regression bekannte Gewicht ergibt A6: Stellen Sie sich vor, dass man Werte für ein Kriterium Y und potentielle Prädiktoren X1 , . . . , Xm erhoben hat. Nun rechnet man zunächst eine multiple Regression nur mit den Prädiktoren X1 , . . . , Xm−1 . Anschließend rechnet man (mit denselben Daten) eine multiple Regression mit allen Prädiktoren X1 , . . . , Xm . Kann es sein, dass der Determinationskoeffizient bei der zweiten Regression kleiner ist als der bei der ersten? (Anders: Kann der Determinationskoeffizient bei Hinzunahme eines weiteren Prädiktors kleiner werden?) Wenn ja, versuchen Sie, ein einfaches Beispiel zu finden, wenn nein, geben Sie eine Begründung. A7: Zwei Prädiktoren X1 , X2 und ein Kriterium Y liefern (in dieser Reihenfolge) die Mittelwerte 2, 3, 5 und die Kovarianzmatrix 4 5 1 5 16 11 1 11 25 a) Stellen Sie die Normalengleichungen auf und bestimmen Sie die optimale Vorhersage. b) Bestimmen Sie die Vorhersagevarianz, R2 , die multiple Korrelation der Prädiktoren mit Y , Schätzfehlervarianz und Standardschätzfehler. c) Bestimmen Sie die β-Gewichte über die Normalengleichungen mit den standardisierten Variablen und überzeugen Sie sich, dass die Formeln für diese Gewichte auch hier stimmen. Wie sieht die optimale Vorhersage des standardisierten Kriteriums durch die standardisierten Prädiktoren aus? Aufgabenblatt 9 S. 3 SS16 d) Vergleichen Sie die multiple Regression mit den einfachen Regressionen auf jeweils einen Prädiktor. Was fällt auf? A8: Gegeben seien Werte von Variablen X1 , X2 , X3 , Y : X1 X2 X3 8 10 17 8 2 10 8 6 15 4 10 14 4 6 9 4 6 11 4 2 6 0 6 5 2 2 0 0 10 11 Y 21 13 14 16 12 12 8 10 3 11 a) Bestimmen Sie die Mittelwerte sowie die Kovarianz- und Korrelationsmatrix. Zur Kontrolle: Als Kovarianzmatrix muss sich folgende Matrix ergeben: 9.6 0 9.6 9.6 0 9.6 9.6 9.6 9.6 9.6 19.8 18.6 9.6 9.6 18.6 20.4 b) Berechnen Sie die einfachen Regressionen von Y auf X1 , X2 , X3 . c) Berechnen Sie die multiplen Regressionen von Y auf jeweils zwei Prädiktoren (X1 , X2 ), (X2 , X3 ), (X1 , X3 ). d) Berechnen Sie die multiple Regression von Y auf alle drei Prädiktoren (X1 , X2 , X3 ). e) Berechnen Sie jeweils den Determinationskoeffizienten, den multiplen Korrelationskoeffizienten, den Standardschätzfehler und die β-Gewichte. f) Betrachten Sie die Beziehung zwischen den Determinationskoeffizienten für die verschiedenen Regressionen. Gibt es irgendwo Additivität? g) Bei der multiplen Regression verfolgt man oft zwei gegenläufige Ziele: Einerseits möchte man möglichst wenig Prädiktoren haben, andererseits jedoch auch eine möglichst gute Varianzaufklärung. Man könnte sich nun folgendes Verfahren zur Auswahl einer Vorhersageregel denken, die einen Aufgabenblatt 9 S. 4 SS16 möglichst guten Kompromiss liefert: Nimm als ersten Prädiktor denjenigen, der die meiste Varianz aufklärt. Nimm dann denjenigen hinzu, der den größten Gewinn an zusätzlicher Varianzaufklärung bringt. Führe dies so oft durch, bis die Varianzaufklärung befriedigend ist. Das Beispiel zeigt, daß dies Verfahren nicht notwendig die optimale Vorhersageregel liefert (warum?). h) Man beachte auch das Verhalten der Koeffizienten, wenn ein weiterer Prädiktor hinzukommt. Welche Folgerungen sind für die Interpretation von Vorzeichen zu ziehen? i) Welche Merkwürdigkeiten, die bei multiplen Regressionen auftreten können, zeigen sich in dieser Aufgabe? Berücksichtigen Sie: Änderung von Gewichten (b und β) bei Hinzunahme weiterer Prädiktoren, Änderung in der Varianzaufklärung, Diskrepanzen zwischen Gewichten und Korrelationen, Größe der β-Gewichte. Aufgabenblatt 10 S. 1 SS16 A1: Diese Aufgabe soll einige ‚ Merkwürdigkeiten ‘ demonstrieren, die bei Multikollinearität auftreten können. Würdigen Sie die Ergebnisse in dieser Hinsicht! Gegeben sind Werte der Variablen X1 , X2 und Y für 4 Fälle: X1 X 2 Y 18 20 18 −20 −20 20 20 20 −18 −18 −20 −20 Bestimmen Sie Kovarianzmatrix und Korrelationsmatrix, ermitteln Sie die b-Gewichte und daraus die β-Gewichte. Geben Sie die Varianzzerlegung und den Determinationskoeffizienten an. Rechnen Sie auch einfache lineare Regressionen von Y auf X1 und X2 und vergleichen Sie die multiple Regression mit den einfachen. Beachten Sie insbesondere die Veränderungen, die sich ergeben, wenn zu X1 als zweiter Prädiktor X2 hinzugefügt wird; was leistet in diesem Zusammenhang übrigens X2 als einzelner Prädiktor in einer einfachen linearen Regression? A2: Die Kaufgier ist ein entscheidender Antrieb zum Geldausgeben. Allerdings kann zu große Gier auch zur Unfähigkeit führen, überhaupt sich noch vernünftig zu verhalten, weshalb zu erwarten ist, daß zwischen der Variable Gier (X) und der Variable ausgegebene Geldsumme, in Hundertmarkscheinen gemessen, (Y ) ein umgekehrt U-förmiger Zusammenhang besteht. Für eine Untersuchung wird dies so präzisiert, daß Y durch eine quadratische Funktion von X von der Form ax2 + bx + c möglichst gut vorhergesagt werden soll. In der Untersuchung hat man bei 7 Versuchspersonen die folgenden Werte von X gefunden: 1, 2, 3, 4, 5, 6, 7, und in der gleichen Reihenfolge die zugehörigen Y -Werte 11, 27, 27, 32, 28, 22, 14. a) Stellen Sie die Normalengleichungen auf, indem Sie die nötigen Varianzen und Kovarianzen ausrechnen1 b) Lösen Sie die Normalengleichungen! c) Für welchen Wert von X wird ein maximales Y vorhergesagt, und wie groß ist dieser Vorhersagewert? d) Zeichnen Sie die Punktwolke mit der ermittelten Vorhersagefunktion! A3: Jemand denkt sich zur multiplen Regression eine Aufgabe aus: Zwei Prädiktoren sollen unkorreliert sein und mit dem Kriterium jeweils eine Korrelation von .9 haben. Zeigen Sie, daß diese Angaben unsinnig sind! (Berechnen Aufgabenblatt 10 S. 2 SS16 Sie den Determinationskoeffizienten! Berechnen Sie auch die Partialkorrelation der Prädiktoren!) A4: Zu drei Variabeln X, Y, Z seien folgende Korrelationskoeffizienten gegeben: a) b) c) d) e) rX,Y rX,Z rY,Z 0 0.8 0.6 0.3 −0.8 −0.8 0.9 0.95 0.95 0.3 0.4 −0.75 −0.9 0.95 −0.99 Berechnen Sie jeweils die Partialkorrelation rX,Y.Z . Was kann man an dieser Aufgabe erkennen? A5: a) In einer Stichprobe wurden drei Variablen X, Y und Z erhoben. Man fand folgende Kennwerte: rXY = .1, rXZ = .4, rY Z = −.5. Berechnen Sie rXY.Z b) Für drei andere Variablen U, V und W ergab sich rU W = rV W = 1/2 und rU V.W = 1/3. Wie groß ist rU V ? Aufgabenblatt 11 S. 1 SS16 A1: Jemand beginnt eine Aufgabe zur multiplen Regression damit, dass zwei Prädiktoren die Korrelation .3 haben und der erste Prädiktor mit dem Kriterium eine Korrelation von .9 besitzt. Bestehen nun Einschränkungen für die Korrelation des Kriteriums mit dem zweiten Prädiktor? A2: Gegeben sei die Situation von Aufgabe 3 in Aufgabenblatt 10. Zeigen Sie jetzt auch mit Hilfe der Vektorrepräsentation, dass die Angaben unsinnig sind. A3: Gegeben sind zwei Variable X und Y mit SX = 2, SY = 1 und rXY = .5. Es wird die Linearkombination Z = 2X + 3Y + 4 gebildet. Bestimmen Sie SZ und rXZ . Repräsentieren Sie die Variablen nun durch Vektoren, bestimmen Sie SZ und rXZ graphisch und vergleichen Sie. A4: Die Kovarianzmatrix von drei Variablen X1 , X2 , Y sei 4 7.8 −.79 7.8 16 0 . −.79 0 3.24 Berechnen Sie zunächst die b- und β-Gewichte bei einer Regression von Y auf X1 und X2 (die additiven Konstanten sind hier irrelevant). Bestimmen Sie auch die Gewichte bei einfachen Regressionen von Y auf die beiden Prädiktoren und vergleichen Sie die Varianzaufklärung (die Situation ist ähnlich wie die in Aufgabe 1 in Aufgabenblatt 10). Veranschaulichen Sie sich die Lage durch eine Vektorrepräsentation; repräsentieren Sie dazu die beiden Prädiktoren durch Vektoren und tragen Sie in die Zeichnung die Repräsentation von Ŷ ein, wo Ŷ die Vorhersage mit Hilfe beider Prädiktoren ist. Wie liest man die Regressionsgewichte für die einfachen Regressionen in der Zeichnung ab (das veranschaulicht die Änderung der Gewichte beim Hinzufügen des zweiten Prädiktors)? Woran ist in der Zeichnung zu erkennen, dass die Korrelation von X2 mit dem Kriterium 0 ist? Inwiefern veranschaulicht die Zeichnung den großen Sprung in der Varianzaufklärung bei Hinzunahme des zweiten Prädiktors? (Bemerkungen: 1. In Aufgabe 1 in Aufgabenblatt 10 ist die analoge Zeichnung nicht so gut herstellbar. 2. Man könnte unsicher sein, ob die angegebene Matrix tatsächlich eine Kovarianzmatrix ist; zum Nachweis fehlen uns praktikable Hilfsmittel). A5: Veranschaulichen Sie sich die Ergebnisse von Aufgabe 4 in Aufgabenblatt 10 grob mit Hilfe der Vektorrepräsentation. Aufgabenblatt 12 S. 1 WS16/17 A1: Seien X1 , ..., Xn unabhängige Versionen einer Zva X, n P Xi . E(X) = µ, V (X) = 5. Sei X̄ = n1 i=1 Wie groß muß n sein, damit P (|X̄ − µ| ≥ 0, 1) ≤ 1%? A2: Gegeben sei eine Menge von Studenten Ω0 = {a, b, c, d, e} (Laplaceraum). Die Zufallsvariable X ordnet jedem Studenten aus Ω0 seinen Testwert für “Aggression“ zu: ω a b c d e X(ω) 2 2 6 8 12 In einem Experiment werden nun zwei Personen ohne Zurücklegen gezogen. Dieses Experiment wird beschrieben durch den Wahrscheinlichkeitsraum Ω = {(ω1 , ω2 )|ωi ∈ Ω0 , ω1 6= ω2 } (Laplaceraum). Auf Ω seien folgende Zufallsvariablen (“Statistiken“) definiert: X1 : Aggressionswert der ersten gezogenen Person X2 : Aggressionswert der zweiten gezogenen Person M : Mittelwert der beiden Personen (M = X1 +X2 ) 2 S 2 : Varianz der Werte der beiden Personen (S 2 = X12 +X22 2 − M 2) S: Streuung der Werte der beiden gezogenen Personen a) Geben Sie die Verteilung (durch die Wahrscheinlichkeitsfunktion), den Erwartungswert, die Varianz und die Streuung von X an! b) Ermitteln Sie die gemeinsame Verteilung von X1 und X2 . Sind X1 und X2 unabhängig? c) Bestimmen Sie die Korrelation zwischen X1 und X2 ! d) Bestimmen Sie den Erwartungswert, die Varianz und die Streuung von X1 , X2 , M , S 2 , S! e) Vergleichen Sie die Erwartungswerte von X, X1 , X2 und M ! f) Vergleichen Sie den Erwartungswert von S 2 mit der Varianz von X! p g) Vergleichen Sie den Erwartungswert von S mit E(S 2 ), √ p d.h. gilt E( S 2 ) = E(S 2 )? Aufgabenblatt 12 S. 2 WS16/17 A3: Seien X1 , ..., Xn unabhängige Versionen einer Zva X, E(X) = µ, n P Xi . V (X) = σ 2 . Sei X̄ = n1 i=1 a) Es sei σ = 5. Wie groß muß n mindestens gewählt werden, damit das 95%-Vertrauensintervall (nach Tschebyscheff) eine Länge von höchstens 1 besitzt? 2 b) Es sei σ = 10, n = 8. Wie groß ist das 90%-Vetrauensintervall? c) Es sei σ = 10. Wie groß muß n mindestens gewählt werden, damit das 90%-Vertrauensintervall eine Länge von höchstens 4 besitzt? A4: Wie hängt die Länge des Vertrauensintervalls (nach Tschebyscheff) von σ, α und n ab? A5: Von einer Zufallsvariable ist bekannt, daß sie die Varianz 27 besitzt. a) Bei dreimaliger unabhängiger Realisierung ergibt sich ein Mittelwert von 12. Wie sieht das 80%-Vertrauensintervall für µ nach Tschebyscheff aus? b) Erläutern Sie einem Laien kurz, was dies bedeutet! c) Das 99%-Vertrauensintervall nach Tschebyscheff soll nun eine Gesamtbreite von höchstens 1/2 besitzen. Wie groß muß die Stichprobe dann mindestens sein? d) Jetzt soll das Experiment aus a) 15 mal unabhängig durchgeführt werden. Die Anzahl der Fälle, in denen das entsprechende Vertrauensintervall µ enthält, sei mit Y bezeichnet. Wie groß ist der Erwartungswert von Y mindestens? (Zusatzfrage ohne Wertung: Warum steht hier das Wort „mindestens“?) A6: Folgende Zva X sei gegeben: X P (X = x) 0 1/2 4 1/4 12 1/4 X1 , ...Xn seien unabhängige Versionen von X und X̄ = 1 n n P Xi . i=1 a) Ermitteln Sie die Stichprobenverteilungen von X̄ für n = 1, n = 2, n = 4! Die Rechnungen für n = 4 können Sie sich erleichtern, wenn Sie berücksichtigen, daß der Mittelwert von vier Realisierungen gleich Aufgabenblatt 12 S. 3 WS16/17 dem Mittelwert der Mittelwerte der ersten beiden und der letzten beiden Ziehungen ist, die unabhängig sind, und deren Verteilung Sie schon für n = 2 ermittelt haben. b) Zeichnen Sie die Verteilungsfunktionen von X̄ sowie die Verteilungsfunktionen der z-Transformierten von X̄ für n = 1, 2, 4 alle im gleichen Maßstab und vergleichen Sie jeweils! A7: Eine Zufallsvariable X mit Erwartungswert µX = 6 weist die folgende Verteilung der Stichprobenvarianzen bei zweimaliger unabhängiger Realisierung von X auf: S 2: 0 p : .375 1 .500 4 .125 a) Wie groß sind Erwartungswert und Varianz dieser Verteilung der Stichprobenvarianzen? b) Wie sieht die Verteilung der korrigierten Stichprobenstreuung s aus? c) Wie groß ist der Erwartungswert der Verteilung von s? Stimmt er mit der Streuung von X überein? d) Wie sieht die Verteilung von X aus? A8: Ein Pandämonium-Modell für eine Signalentdeckungsaufgabe könnte folgendermaßen aussehen: Die einströmenden Sinnesdaten werden von zwei Dämonen überwacht, die beide die Aufgabe haben, auf einen bestimmten Reiz zu reagieren. Wenn einer der beiden den Reiz bemerkt, fängt er an zu schreien und veranlaßt dadurch den Ober-Dämon, den Befehl „Taste drücken“ an den Bewegungskoordinationsdämon weiterzuleiten. Die beiden Dämonen sind unterschiedlich sensibel: Der eine reagiert mit Wahrscheinlichkeit 0.6 auf den Reiz, der andere nur mit Wahrscheinlichkeit 0.5. Wie wahrscheinlich ist ein Tastendruck als Reaktion auf einen Reiz, wenn man annimmt, daß die beiden völlig unabhängig voneinander reagieren? Wie wahrscheinlich ist es, daß die Versuchsperson, in deren Kopf sich dies abspielt, bei 10 Reizdarbietungen 7 mal die Taste drückt? Wie ändern sich die Wahrscheinlichkeiten, wenn der Ober-Dämon etwas taub ist, und das Gebrüll nur eines Wächter-Dämons lediglich mit Wahrscheinlichkeit 0.8 bemerkt, jedoch immer aufschreckt, wenn beide zugleich loskreischen? A9: Drachentöter Siegfried hat infolge einer durch einen Jagdunfall erlittenen Rückenverletzung etwas an Kampfkraft eingebüßt und erlegt einen Drachen Aufgabenblatt 12 S. 4 WS16/17 jetzt nur noch mit einer Basiswahrscheinlichkeit von 1/3. In den anderen Fällen muß er leider die Flucht ergreifen. a) Wie wahrscheinlich ist es, daß er von den nächsten 6 Drachen genau die Hälfte erfolgreich bekämpft? b) Wie wahrscheinlich ist es, daß er in genau vier von den sechs Fällen das Weite suchen muß? c) Mit welcher Wahrscheinlichkeit wird er mindestens zwei Drachen erlegen? d) Der Wunderheiler Anabol Steroid verschreibt Siegfried ein neues Medikament, nach dessen Einnahme seine Kampfkraft wieder zunimmt. So ist nun z.B. die Wahrscheinlichkeit, daß er mindestens einen der nächsten vier Drachen erlegen wird, gleich 0.9744. Wie groß ist die neue Basiswahrscheinlichkeit pro Drache? A10: Beim Roulette gibt es 37 Felder, davon sind je 18 rot bzw. schwarz und eines die Null. Die Behauptung “P (rot) = 0,4“ soll durch einen (linksseitigen) Test mit 8 Versuchen überprüft werden. Aufgestellt werden die Hypothesen H0 : P (rot) = 18 37 H1 : P (rot) = 0, 4. Formulieren Sie die Entscheidungsregel zu α ≤ 0.05 und bestimmen Sie den β-Fehler! A11: Sei X binomialverteilt mit Parametern n, p. Zeichnen Sie für die folgenden Parameter die Wahrscheinlichkeitsfunktion, berechnen Sie E(X), V (X) und (falls möglich) den kleinsten k-Wert mit der Eigenschaft P (X ≥ k) ≤ 0.05! a) n = 5, p = 0, 05 b) n = 5, p = 0, 3 c) n = 5, p = 0, 8 d) n = 5, p = 0, 5 e) n = 5, p = 0, 95 A12: Gesucht ist ein zweiseitiger Test der Nullhypothese p = .5 mit 16 Durchgängen auf dem 5%-Niveau (Binomialtest). Welches Problem veranschaulicht diese Aufgabe? Aufgabenblatt 12 S. 5 WS16/17 A13: Eine Statistikklausur bestehe aus 20 Fragen, wobei jede Frage entweder richtig (=1) ˆ oder falsch (=0) ˆ beantwortet werden kann. Gesucht ist die Wahrscheinlichkeit dafür, daß ein Student 10 der 20 Fragen richtig beantwortet, wenn er jede Aufgabe “per Zufall“ löst. A14: Dem Institutsdirektor Prof. Dr. Zacharias Zipp fällt auf, daß der Dozent Fridolin Faux-Pas innerhalb von 14 Lehrveranstaltungen bereits sechsmal den Overhead-Projektor exekutiert hat. Ihn bescheicht deshalb der Verdacht, daß Fridolin im Umgang mit der Technik nicht die nötige Sorgfalt walten läßt. Normalerweise zerlegen Dozenten an seinem Institut den Projektor nämlich nur in 15% der Lehrveranstaltungen. a) Testen Sie die Nullhypothese, daß Fridolin nicht von der Norm abweicht, auf dem 5%-Niveau! b) Fridolins böswilliger Kollege Günther Gerücht formuliert die konkrete Alternativhypothese, Fridolin würde mit einer Wahrscheinlichkeit von 60% in seinen Veranstaltungen den Projektor verschrotten. Wie groß ist dann die Power Ihres Tests? A15: Von einer Versuchsperson weiß man, daß sie in einem Wahrnehmungsexperiment einen Stimulus mit p = 0.35 richtig erkennt. Die zu testende Hypothese besagt, dies ändere sich unter einer neuartigen Droge. Aufgestellt werden also H0 : p = 0.35 H1 : p 6= 0.35 Es werden 20 Versuche durchgeführt; α ≤ 10%. Zeichnen Sie die Power als Funktion von p! Für welche Werte von p ist die Power ≥ 80%? (Ermitteln Sie dies durch Ablesen!) A16: Bei einer Krankheit gibt es 30% Spontanremissionen pro Woche. Es soll ein neues Medikament auf seinen (positiven oder negativen) Einfluß getestet werden. Grundlage für die Entscheidung ist die Anzahl der Patienten, die nach der Einnahme innerhalb einer Woche gesund werden. Das Signifikanzniveau sei .1, die Anzahl der Vpn 14. a) Wie sieht der Test aus? b) Wie groß ist die Power für p = 0, 2 und p = 0, 8? Aufgabenblatt 12 S. 6 WS16/17 A17: Der Statistikdozent Max Varianz hat sich auf Anregung der Studenten hin überlegt, daß er statt der bisherigen Form der Präsentation der Statistikklausuren in Zukunft einen Multiple-Choice-Test vorgeben möchte. Die Klausur soll zukünftig aus 20 Aufgeben bestehen, die jeweils 4 Antwortmöglichkeiten haben, von denen die richtige anzukreuzen ist. Für jede richtige Aufgabe gibt es einen Punkt (die maximale Punktzahl ist also 20). Jetzt stellt sich für Herrn Varianz die Frage, wieviele Punkte wohl ein Student erreicht, wenn er rät. a) Wie groß sind Erwartungswert und Varianz der Zufallsvariable X: „erreichte Punktzahl“ unter Ratebedingungen? b) Herr Varianz möchte höchstens ein Risiko von 5% eingehen, daß ein Student nur durch Raten die nötige Punktzahl erreicht. Welche Mindestpunktzahl zum Bestehen der Klausur muß er dann festsetzen? c) Die Studentin Luise Listig behauptet, jede Aufgabe mit 100-prozentiger Wahrscheinlichkeit richtig lösen zu können. Wie groß ist dann die Wahrscheinlichkeit, daß sie die Klausur besteht, wenn das Kriterium das aus Teil b) ist? Wie groß ist diese Wahrscheinlichkeit, wenn die Wahrscheinlichkeit der richtigen Lösung einer Aufgabe bei der Studentin nur 80% beträgt, und wenn man davon ausgeht, daß die Aufgabenbearbeitungen unabhängig voneinander sind? d) Nun sitzen in der Klausur 16 Studenten, die keine Ahnung vom Stoff haben. Wie wahrscheinlich ist es, daß mindestens einer davon die nötige Punktzahl (aus Teil b) erreicht, wenn man von der (realistischen?) Annahme ausgeht, daß sie die Klausur unabhängig voneinander durch Raten zu bewältigen versuchen? A18: Nachdem Sie gehört haben, dass Journale am liebsten nur signifikante Ergebnisse veröffentlichen, und dass andererseits Ergebnisse auch bei Gültigkeit der Nullhypthese zufällig signifikant werden können, zweifeln Sie am Sinn der Forschung und fragen sich, was wohl an den veröffentlichten Ergebnissen richtig ist. Um sich eine etwas genauerer Vorstellung zu schaffen, treffen Sie folgende vereinfachenden Modellannahmen: 1. Es gibt nur drei Typen von Untersuchungen: einerseits solche, bei denen die Nullhypothese gilt und andererseits solche, in denen die Alternativhypothese richtig ist, wobei hier die Power entweder .4 oder .8 ist. 2. Diese Fälle treten mit unterschiedlichen Basisraten auf: Die Untersuchungen mit richtiger Nullhypothese haben eine Wahrscheinlichkeit von .5, die Aufgabenblatt 12 S. 7 WS16/17 mit einer Power von .4 haben eine Wahrscheinlichkeit von .2 und die mit einer Power von .8 haben eine Wahrscheinlichkeit von .3. 3. Journale veröffentlichen alle signifikanten Ergebnisse und keine nichtsignifikanten Ergebnisse. 4. Alle Tests werden auf dem 5%-Niveau durchgeführt, und das Signifikanzniveau wird auch immer ausgeschöpft. a) Wie groß sind die bedingten Wahrscheinlichkeiten einer Veröffentlichung für die drei Typen von Untersuchungen? b) Wie groß ist die totale Wahrscheinlichkeit, dass das Ergebnis einer Untersuchung veröffentlicht wird? c) Wie groß ist die Wahrscheinlichkeit dafür, dass die (Alternativ-)Hypothese einer Untersuchung falsch ist unter der Bedingung, dass das Ergebnis veröffentlicht wird? (Also: Welcher Anteil der veröffentlichten Ergebnisse ist falsch?) d) Nehmen Sie nun als weitere Vereinfachung an, dass für alle Untersuchungen, bei denen die Alternativhypothese stimmt, die Power gleich .6 ist; es gibt also nur noch zwei Typen von Untersuchungen, deren Auftretenswahrscheinlichkeit jedoch jetzt unbekannt sei. Wie groß muss dann der Anteil der Untersuchungen mit richtiger Nullhypothese sein, damit die Wahrscheinlichkeit, dass die Ergebnisse einer veröffentlichten Untersuchung falsch sind, gleich .5 ist (damit also die Hälfte aller Veröffentlichungen falsch sind)? Aufgabenblatt 13 S. 1 WS16/17 A1: Eine Aufgabe für alle angehenden Bayesianer: Gegeben sei die bekannte Situation des Testens der Hypothesen H0 : p = 1/6 H1 : p = .3 , ob die 6 bei einem Würfel mit der vorgeschriebenen Wahrscheinlichkeit oder öfter kommt. Der Test soll mit Hilfe von 5 unabhängigen Versuchen bei a ≤ .05 durchgeführt werden. Nun stellen Sie sich vor, daß jemand (z.B. das Schicksal) immer wieder unterschiedliche Würfel zum Testen liefert. Das geschieht so, daß ein normaler Würfel mit einer Wahrscheinlichkeit von b (für Basisrate) vorkommt und einer, bei dem die 6 mit Wahrscheinlichkeit .3 auftritt, entsprechend mit Wahrscheinlichkeit 1 − b. Für den Hypothesentester, der sich diesem Schicksal ausgeliefert sieht, ist es jetzt durchaus angemessen, auch den Hypothesen Wahrscheinlichkeiten zuzuordnen (nämlich b und 1 − b). Daher darf jetzt auch die Wahrscheinlichkeit des Verwerfens von H0 unter der Bedingung, daß H0 gilt, als eine bedingte Wahrscheinlichkeit aufgefaßt werden etc.. Es seien nun A und B die Ereignisse „Anzahl der Sechsen ≥ kritischer Wert“ bzw. „Anzahl der Sechsen < kritischer Wert“ (bei der üblichen Entscheidungsregel äquivalent dazu, daß H0 verworfen bzw. nicht verworfen wird). a) Geben Sie die bedingten Wahrscheinlichkeiten von A und B unter H0 und H1 an! b) Berechnen Sie mit der Formel der totalen Wahrscheinlichkeit die Wahrscheinlichkeit, H0 zu verwerfen, als Funktion von b (wie groß ist diese Wahrscheinlichkeit z.B. für den Fall, daß b = .5 ist, daß also beide Hypothesen gleichwahrscheinlich sind?) Stellen Sie diese Wahrscheinlichkeit graphisch als Funktion von b dar! c) Berechnen Sie nun die Wahrscheinlichkeit P (H0 |A) mit Hilfe der BayesFormel auch wieder als Funktion von b und stellen Sie diese Funktion graphisch dar! Wie groß ist diese bedingte Wahrscheinlichkeit zum Beispiel für die Werte 0, .25, .5, .75, 1 von b? Überzeugen Sie sich davon, daß die notorische Fehlinterpretation der Irrtumswahrscheinlichkeit auch im Bayesschen Rahmen Unsinn ist! d) Was können Sie sagen, wenn in einem konkreten Experiment A eingetreten ist? Können Sie z.B. sagen, daß jetzt die Wahrscheinlichkeit von H0 Aufgabenblatt 13 S. 2 WS16/17 soundsogroß ist? e) Während man b und 1−b die a-priori-Wahrscheinlichkeiten nennt (warum wohl?), heißen P (H0 |A) und P (H1 |A) auch a-posteriori-Wahrscheinlichkeiten (für den Fall des Ereignisses A). Entsprechendes gilt für den Fall des Eintretens von B. Wären Sie bereit, diese a-posteriori-Wahrscheinlichkeiten als subjektive Wahrscheinlichkeiten für die Gültigkeit von H0 bzw. H1 im Lichte des Ergebnisses Ihres Experiments zu bezeichnen? (Auf diese Frage gibt es natürlich nur eine subjektive Antwort.) Überlegen Sie diese Frage sowohl für den Fall, daß b bekannt ist (woher auch immer), als auch für den Fall, daß b unbekannt ist. Welche dieser beiden Möglichkeiten halten Sie für realistischer? f) Berechnen Sie die Wahrscheinlichkeiten einer Fehlentscheidung (insgesamt, also erster oder zweiter Art) als Funktion von b für die folgenden drei Entscheidungsregeln: 1. Entscheidung für H0 , egal, welches Ergebnis das Würfeln bringt. 2. Entscheidung für H1 , egal, welches Ergebnis das Würfeln bringt. 3. Entscheidung für H1 , falls A eintritt und für H0 , falls B eintritt. Stellen Sie die drei Funktionen graphisch dar, und untersuchen Sie, welche Enscheidungsregel die günstigste ist in Abhängigkeit von b! g) Nun etwas komplizierter: Unterschiedliche Arten von Entscheidungen sollen unterschiedliche Konsequenzen haben, die man messen kann (z.B. in Geld). Bewerten Sie zum Beispiel den Fehler erster Art mit −10, den Fehler zweiter Art mit −5 und beide korrekte Möglichkeiten mit 1 (Sie führen jetzt also Zufallsvariablen Xi : Konsequenz bei Entscheidungsregel i ein). Berechnen Sie nun die Erwartungswerte von Xi in Abhängigkeit von b. Beantworten Sie erneut die Frage, welche der Entscheidungsregeln für welche Werte von b optimal ist. h) Denken Sie jetzt nochmal über alles nach und erwägen Sie, wenn Sie diese Fragen und Überlegungen interessant finden, ob Sie Bayesianer werden möchten. Nachbemerkung: Man kann die Aufgabe auch etwas anders einkleiden und damit Überlegungen im Sinne der Bayesianer aus dem Weg gehen. Beispielsweise könnte es in einer Würfelfabrik eine Maschine geben, die einen Fehler hat und Würfel mit der erhöhten Wahrscheinlichkeit der Sechs produziert. Der Anteil der von dieser Maschine produzierten Würfel wäre dann 1 − b. Untersucht werden soll ein zufällig gezogener Würfel, bei dem dann die Frage ist, ob er von der defekten Maschine produziert wurde (ausgedrückt Aufgabenblatt 13 S. 3 WS16/17 durch H1 ) oder nicht (H0 ). Damit kann man die Denkschritte oben ganz im klassischen Rahmen machen. A2: Gegeben sei die Situation aus Aufgabe 6 in Aufgabenblatt 12. Zeichnen Sie auch die Verteilungsfunktion der Standardnormalverteilung im gleichen Maßstab und vergleichen Sie mit den Diagrammen der Verteilungsfunktionen der z-transformierten Mittelwerte! Wofür ist dies eine Illustration? A3: Z sei Variable, deren Wahrscheinlichkeitsdichte eine Standardnormalverteilung ist. Sei z = 1, 2. Wie groß sind jeweils die schraffierten Flächen? a) b) c) d) e) f) ..... .... ....... . . ... .. ... ... . .... . . . ..... . . . . . ............. ............ ......................... z 0 ........ .... ....... . . ... . ... ... . . .... .. . ...... . . . . . ....................... . . . . ................... z 0 ......... .... ...... . . ... .. ... ... . .... . . . ..... . . . . ........................ ........................ z 0 ...... .... ....... . . ... .. ... ... . .... . . . ..... . . . . . ......................... ........................ −z 0 .......... .... ...... . . ... . ... ... . . .... .. . . ...... . . . . ....................... ....................... −z 0 z Aufgabenblatt 13 S. 4 WS16/17 .............. ... ... . . ... . . . ... . . . .... . . . . ...... . . . . . . ...................... ..................... −z 0 z A4: Welche Werte schneiden bei einer N (20, 36)-verteilten Variablen symmetrisch links und rechts insgesamt 10% ab? A5: Sei X ∼ N (µ, σ 2 ), σ = 5, n = 100. Bilden Sie die 95%-Vertrauensintervalle für µ a) nach Tschebyscheff b) unter der Normalverteilungsannahme und vergleichen Sie! A6: Sei X ∼ N (µ, 64). Wie groß muß n mindestens sein, damit die Länge des 90%-Vertrauensintervalles für µ kleiner als 1 wird? A7: Seien X ∼ N (5, 64), Y ∼ N (2, 16), ρ(X, Y ) = 41 . X, Y seien gemeinsam normalverteilt. Berechnen Sie P ( X2 − Y ≥ 1)! A8: X1 , X2 , X3 seien gemeinsam normalverteilte Zufallsvariable mit folgender Kovarianzmatrix: 25 10 0 10 16 5 0 5 9 Es gelte E(X1 ) = 1, E(X2 ) = 2, E(X3 ) = 3, Y := X1 − X2 /2 + X3 . Berechnen Sie P (2 ≤ Y ≤ 8)! A9: Vergleichen Sie die Längen der Vertrauensintervalle für µ nach Tschebyscheff und unter Normalverteilungsannahme für 90%, 95% und 99%. (Bestimmen Sie jeweils das Verhältnis der Längen zueinander.) A10: Erläutern Sie noch einmal den Begriff der Stichprobenverteilung der Mittelwerte. Auf die Bemerkung, die Stichprobenverteilung der Mittelwerte von Stichproben vom Umfang n = 5 sei normalverteilt, falls die zugrundeliegende Variable normalverteilt sei und falls Zufallsstichproben betrachtet würden, entgegnet ein Student: “Eine Stichprobe vom Umfang 5 kann doch nicht normalverteilt sein.“ Antworten Sie dem Studenten! Aufgabenblatt 13 S. 5 WS16/17 A11: a) Welcher Wert schneidet bei einer Standardnormalverteilung links 2% ab? Welche Werte schneiden beidseitig symmetrisch insgesamt 8% ab? b) Eine Variable Y sie N (4, 25)-verteilt. Wie groß ist die Wahrscheinlichkeit, daß Y Werte zwischen 3 und 7 annimmt? Wie groß ist die Wahrscheinlichkeit, daß der Mittelwert aus vier unabhängigen Realisierungen von Y zwischen diesen beiden Werten liegt? c) Die Körpergröße von Ehepaaren sei als gemeinsam normalverteilt angenommen. Die Größe der Männer sei dabei N (180, 225)-verteilt, und die der Frauen sei N (170, 400)-verteilt (Angaben in cm). Die Korrelation betrage 2/3. Nun gibt es in einer einfallsreichen Game-Show ein Spiel, das erfordert, daß sich die Frau mit einer 20cm langen brennenden Kerze auf dem Kopf auf den Kopf des Mannes stellt, um mit der Flamme einen Faden zu durchtrennen, der in 360cm Höhe angebracht ist. Wenn das gelingt, wird ein Mechanismus in Gang gesetzt, der einen Tresor öffnet. Man kann davon ausgehen, daß der Faden gerade noch durchtrennt wird, wenn sich die Flamme 10cm unterhalb des Fadens befindet. Wie wahrscheinlich ist es, daß ein zufällig ausgewähltes Ehepaar mangels Körpergröße in diesem intelligenten Spiel scheitert? d) In einem Lehrbuch finden Sie den Satz: „Die Intelligenz ist normalverteilt mit einem Mittelwert von 100 und einer Streuung von 15“. Geben Sie Gründe dafür an, daß dies streng genommen nicht richtig sein kann! (Zusatzfrage ohne Wertung: Was an diesem Satz ist bereits auf semantischer Ebene falsch?) A12: Es sei X eine B(10, 0.2) verteilte Zva. Wie groß ist die Wahrscheinlichkeit, daß diese Variable Werte ≤ 8 annimmt? (Benutzen Sie einmal die Binomialverteilungstabelle und einmal die Normalverteilungsapproximation zur Berechnung dieser Wahrscheinlichkeit!) A13: Vergleichen Sie die Wahrscheinlichkeiten der Binomialverteilung mit p = 0.3 und n = 6 mit denen, die Sie bei einer Approximation durch die Normalverteilung erhalten. Führen Sie diesen Vergleich auch für die Binomialverteilung mit p = 0.5 und n = 6 durch. Welche Approximation ist besser? A14: X ∼ B(20, 0.3) Berechnen Sie P (2 ≤ X ≤ 6) a) mit Tabelle, b) mit Normalverteilungapproximation! Aufgabenblatt 13 S. 6 WS16/17 A15: Der Forscher Dirk Reiss behauptet, mit einer Wahrscheinlichkeit von 20% bei einem Menschen durch einen tiefen Blick in dessen Augen das Sternzeichen richtig bestimmen zu können (es gibt 12 Sternzeichen). Beantworten Sie die folgenden Fragen mit Hilfe einer geeigneten Approximation! a) Er führt diesen Versuch bei 200 Menschen durch, die er zufällig auswählt. Wie groß ist, wenn seine Behauptung stimmt, die Wahrscheinlichkeit, daß er zwischen 35 und 42 (jeweils einschließlich) Sternzeichen richtig bestimmt? b) Bei den 200 Versuchen trifft er 30 mal ins Schwarze. Würden Sie unter diesen Umständen die Nullhypothese ablehnen, daß er nur rät? (Signifikanzniveau 5%) c) Wie groß wäre die Power des Tests aus dem letzten Teil gewesen, wenn seine Behauptung stimmt? d) Nun fragen Sie sich, wie wahrscheinlich es (bei Richtigkeit seiner Behauptung) ist, daß er in 20 Versuchen genau 6 Treffer erzielt. Vergleichen Sie den Wert, der sich mit Normalverteilungsapproximation ergibt, mit dem in der Binomialtabelle! A16: Welche Werte schneiden bei den χ2 -Verteilungen mit 10, 100 und 123 df rechts 5% ab? Bestimmen Sie die Werte mit Hilfe geeigneter Programme und zum Vergleich auch mit der Tabelle, soweit sie dort vorhanden sind. Bestimmen Sie die Werte ferner näherungsweise mit der Normalverteilungsapproximation und vergleichen Sie! A17: Sechs Beobachtungen seien zufällig und unabhängig voneinander aus einer normalverteilten Population gezogen worden: 106, 98, 97, 103, 101, 99 Bestimmen Sie das 95%-Vertrauensintervall für die Populationsvarianz! (Zusatz für die Spezialisten: Wie ändert sich das Intervall, wenn man µX = 100 als bekannt voraussetzt?) A18: Sei X ∼ χ2n, δ2 . Man zeige: E(X) = n + δ 2 A19: Es besteht die Vermutung, dass die Streuung einer Variable X nicht, wie früher geglaubt, gleich 4 ist, sondern größer. Die Frage soll mit Hilfe einer Stichprobe beantwortet werden; diese liefert die Werte 5, 12, 2, 14, 8, 15, 7. Die Variable X sei als normalverteilt vorausgesetzt. a) Formulieren Sie die Hypothesen und testen Sie auf dem 5%-Niveau. Aufgabenblatt 13 S. 7 WS16/17 b) Viele Computerprogramme geben bei der Durchführung von Signifikanztests p-Werte an. Welchen p-Wert würde ein solches Computerprogramm hier angeben? (Benutzen Sie zur Beantwortung der Frage ein geeignetes Programm). c) Wie groß ist die Power des Tests, wenn die Streuung in Wahrheit 5 ist? (Benutzen Sie auch hier zur Antwort ein geeignetes Programm). Aufgabenblatt 14 S. 1 WS16/17 A1: Welcher Wert y (welche Werte −y, y) schneidet bei einer t-Verteilung mit ν = 9 Freiheitsgraden a) rechts 5% ab b) symmetrisch links und rechts insgesamt 5% ab c) symmetrisch aus der Mitte 99% heraus d) links 1% ab e) links 90 % ab? Man fertige jeweils eine Skizze an! A2: Eine Variable X sei als normalverteilt vorausgesetzt. Aus einer Stichprobe erhält man folgende Werte: 15, 12, 18, 12, 23, 15, 24, 11, 5 a) Konstruieren Sie ein 95%-Vertrauensintervall für den Erwartungswert von X. b) Wie hätte dies Intervall ausgesehen, wenn Sie zusätzlich gewußt hätten, daß die (theoretische) Streuung der Variablen 6 ist? c) Die Varianz sei wieder als unbekannt vorausgesetzt. Konstruieren Sie ein 90%-Vertrauensintervall für σ 2 ! d) Erläutern Sie einem Laien kurz, was das Ergebnis aus c) bedeutet! A3: a) Welcher Wert schneidet bei der t-Verteilung mit 30 df rechts .001 ab? Welcher schneidet bei einer mit 4 df links .1 ab? b) Zwischen welchen Werten liegen die mittleren 99% einer χ2 -Verteilung mit 19 df? c) Welcher Wert schneidet bei der F -Verteilung mit 3 Zähler- und 9 Nennerfreiheitsgraden rechts 5% ab? Welcher Wert schneidet bei der F Verteilung mit 40 Zähler- und 12 Nennerfreiheitsgraden links 1% ab? d) Wie wahrscheinlich ist es, daß eine χ21 -verteilte Zva einen Wert ≤ 4 annimmt? Erinnern Sie sich an die Definition und benutzen Sie dann die Tabelle für die Standardnormalverteilung! A4: Es wird gefragt, ob zwei Variablen X und Y unkorreliert sind oder nicht. In einer Stichprobe erhält man folgende Werte: Aufgabenblatt 14 X Y S. 2 11 7 WS16/17 7 9 3 3 9 5 1 7 5 6 5 3 6 5 1 3 3 1 Setzen Sie gemeinsame Normalverteiltheit voraus und testen Sie auf dem 5%-Niveau. Wie entscheiden Sie? Welcher p-Wert würde sich ergeben? A5: Wie groß muss ein Korrelationskoeffizient mindestens sein, damit er bei einem einseitigen Test auf dem 5%-Niveau bei eine Stichprobengrößen von 5, 10, 50, 100, 1000 signifikant wird? Wie sind die entsprechenden Werte bei zweiseitigen Tests? Werden die Werte größer oder kleiner, wenn nicht auf dem 5%-Niveau, sondern auf dem 1%-Niveau getestet werden soll? A6: Leiten Sie für den Test auf Nullkorrelation die direkt für r formulierte Regel aus der her, die den transformierten Korrelationskoeffizienten mit Hilfe einer t-Verteilung testet. A7: Seien X1 , ...Xn unabhängige Versionen von X ∼ N (µ, σ 2 ), a ∈ R. Dann √ µ−a µ−a M√ −a √ = gilt: s/ ∼ tn−1,δ mit δ = σ/ n· σ n n Man beweise dies! A8: Die Suchtabteilung unseres Instituts erhält einen Auftrag des Wodka-Herstellers Smirnoff, herauszufinden, ob die auf einer geeigneten Skala gemessene Sympathie für ihr Produkt normalverteilt ist mit Erwartungswert 8 und Varianz 4. Eine Stichprobe von 5 Probanden liefert die Werte 5.2, 8.7, 10.1, 7.3, 5.2. Testen Sie auf dem 5%-Niveau und veranschaulichen Sie den Test durch eine geeignete Graphik. A9: Jemand vermutet dass Männer weniger über Feng-Shui Bescheid wissen als Frauen. In zwei Stichproben findet man bei 8 Frauen 6, die Bescheid wissen, und bei 6 Männern einen, der Bescheid weiß. (Es gibt hier nur die beiden Möglichkeiten ‚Bescheid wissen‘ und ‚nicht Bescheid wissen‘). Geben Sie die Hypothesen an und testen Sie auf dem 5%-Niveau. Wie entscheiden Sie sich? A10: Schildern Sie kurz die Problematik bei der Verwendung des χ2 -Tests zur Begründung dafür, daß eine bestimmte Variable normalverteilt ist. A11: Zwei Variablen sollen auf Unabhängigkeit getestet werden. Wie groß muß bei einer 3 x 5-Kontingenztafel ϕ2 werden, damit H0 auf dem 5%-Niveau verworfen werden kann? a) n = 100 Aufgabenblatt 14 S. 3 WS16/17 b) n = 1000 c) n = 10000 A12: An 30 zufällig gezogenen Studenten wird mit Hilfe eines Persönlichkeitsfragebogens der Neurotizismuswert ermittelt. Es ergeben sich folgende Daten: 12, 24, 15, 30, 11, 23, 11, 5, 17, 22, 14, 35, 2, 14, 4, 13, 16, 30, 26, 29, 5, 31, 33, 32, 14, 4, 6, 15, 3, 14 Testen Sie auf dem 5%-Niveau die Hypothese, daß der Neurotizismus unter Studenten normalverteilt ist! Wählen Sie dabei (dem Korrektor zuliebe) folgende Klassengrenzen: 7.5, 13.5, 19.5, 25.5! Welche Schlußfolgerung ziehen Sie aus dem Ergebnis? A13: Eine bekannte Theorie teilt die Menschen in die Kategorien „leptosom“, „pyknisch“ und „athletisch“ ein. Ein Forscher ist der Meinung, daß der athletische Körperbau mit 64% der häufigste sei. Die beiden anderen Typen sollen gleichwahrscheinlich sein. Bei 250 Personen findet man 40 leptosome, 38 pyknische und 172 athletische. a) Wie groß sind die erwarteten Häufigkeiten, wenn der Forscher recht hat? b) Machen Sie die Meinung des Forschers zur Nullhypothese! Wie lautet die Alternativhypothese? Welchen Test führen Sie durch? Sind die Voraussetzungen für seine Anwendung erfüllt? c) Testen Sie nun auf dem 5%-Niveau! Wie ist das Ergebnis zu werten? d) Wieso befindet sich der Forscher in einer unbefriedigenden Situation, wenn er seine These untermauern möchte? A14: In einem Experiment, in dem der Einfluß von Emotionen auf das Gedächtnis untersucht werden sollte, wurden 60 Versuchspersonen mit Hilfe eines geeigneten Fragebogens entweder als fröhlich gestimmt oder als traurig gestimmt klassifiziert. Dann wurde jede Vp aufgefordert, eine kurze Episode aus ihrem Leben zu erzählen. Diese Kurzgeschichten wurden einer Gruppe von Experten vorgelegt mit der Aufforderung, die Geschichten in drei Kategorien einzuteilen: fröhlich, neutral, traurig. Es ergab sich folgende Kontingenztafel für die Variablen Stimmung (S) und Geschichte (G): S \ G traurig neutral traurig 16 6 fröhlich 7 10 fröhlich 8 13 Aufgabenblatt 14 S. 4 WS16/17 a) Sind die beiden Variablen unabhängig? Testen Sie auf dem 5%-Niveau! Wie verhalten Sie sich nach dem Test? b) Der Forscher läßt die Daten der Kategorie „neutral“ diskret in der Schublade verschwinden und tut bei einem zweiten Test (α = 5%) so, als gäbe es nur die Kategorien „fröhlich“ und „traurig“. Wie fällt der Test diesmal aus, und wie würde man sich verhalten, wenn man nichts von den Manipulationen des Forschers wüßte? A15: Eine Firma, die Feinwaagen produziert, behauptet, daß die Standardabweichung der Meßergebnisse σ = 0, 005 g sei. Es soll die Nullhypothese H0 : σ = 0, 005 g gegen die Alternativhypothese H1 : σ > 0, 005 g getestet werden. Die Grundgesamtheit der Meßergebnisse kann als normalverteilt angenommen werden. Man lege einen α-Fehler von 0,01 fest. Eine Stichprobe von 12 Meßergebnissen erbringe s = 0, 00949. Bestimmen Sie den kritischen χ2 -Wert und geben Sie Ihre Entscheidung an! Formulieren Sie die Voraussetzungen des durchgeführten statistischen Tests. A16: Der Fettgehalt der Milch von Jerseykühen liegt im allgemeinen bedeutend höher als der von Schwarzbunten. Es ist die Frage zu klären, ob die Variabilität des Fettgehaltes bei beiden Rassen gleich ist oder nicht. Eine Stichprobe vom Umfang n1 = 25 von Jerseykühen hatte die Stichprobenvarianz s21 = 0, 128. Eine Stichprobe vom Umfang n2 = 31 von Schwarzbunten hatte die Stichprobenvarianz s22 = 0, 072. Die Nullhypothese H0 : σ12 = σ22 soll für α = 0, 05 gegen die Alternativen a) H1 : σ12 > σ22 b) H1 : σ12 6= σ22 getestet werden. Die Voraussetzungen für den F -Test (welche sind es?) gelten als erfüllt. A17: Es sei X ∼ N (µ, σ 2 ), σ 2 bekannt. Die Hypothesen lauten: H0 : µ = µ0 H1 : µ = µ1 Entwickeln Sie für einen linksseitigen Test (d.h. µ1 < µ0 ) bei vorgegebenem α-Fehler die Formeln für den kritischen Wert c, den β-Fehler und die Power! Aufgabenblatt 14 S. 5 WS16/17 A18: Gesucht ist die Stichprobenmindestgröße n, bei der die Power eines Tests mit exakter Alternativhypothese ≥ p (bei vorgegebenem p mit p ≥ α) wird. Für den rechtsseitigen Test findet man: n ≥ (uα −up )2 ·σ 2 (µ1 −µ0 )2 Zeigen Sie, daß diese Formel auch für den linksseitigen Test gilt! A19: Sei X ∼ N (µ, 16). Die Hypothesen lauten: H0 : µ = 10 H1 : µ > 10 a) Zeichnen Sie die Power Pµ (“H1 “) für n = 16 und n = 100 (α betrage jeweils 5%)! b) Was ändert sich bei einem linksseitigen Test? A20: Die Verteilung des Ergebnisses X eines IQ-Test sei in einer Population X ∼ N (100, 225). Es besteht die Vermutung, daß der Erwartungswert in einer anderen Population geringer ist (die Varianz sei ebenfalls als 225 angenommen). Für relevant hält man Abweichungen ab 3 Punkten. Wählen Sie daher n so, daß die Power bei µ ≤ 97 größer als 90% wird! A21: Zeichnen Sie die Power des zweiseitigen Tests mit bekannter Varianz für µ0 = 10, σ = 4, n = 16, α = 0.05 und vergleichen Sie die Zeichnung mit der entsprechenden Zeichnung für den einseitigen Test! A22: Gegeben sei eine normalverteilte Variable mit σ = 10. a) Eine Stichprobe vom Umfang 16 liefert die Werte 110, 114, 98, 101, 103, 105, 115, 87, 93, 106, 104, 105, 106, 116, 122, 95. Testen Sie die Hypothesen H0 : µ = 100, H1 : µ = 105 auf dem 5%-Niveau! b) Wie groß muß die Stichprobe mindestens gewählt werden, um bei einem α von 0.01 einen β-Fehler von höchstens 0.02 zu riskieren? Wie groß ist dann der kritische Wert? A23: “Bei großem n wird alles signifikant.“ Was ist an dieser Aussage richtig? Ziehen Sie Gleichungen, Zeichnungen etc. für Ihre Argumentation heran. Aufgabenblatt 15 S. 1 WS16/17 A1: Zur Veranschaulichung der Effektstärke. Die Zvan X1 ∼ N (µ1 , σ 2 ) und X2 ∼ N (µ2 , σ 2 ) mögen die Verteilung eines Merkmals in zwei Populationen beschreiben (Beispiel: Intelligenz bei Männern und Frauen); dabei sei µ2 > µ1 . Wie wahrscheinlich ist es, dass der Wert des Merkmals bei einer zufällig gezogenen Person aus Population 2 höher ist als bei einer unabhängig davon zufällig gezogenen Person aus Population 1? Drücken Sie diese Wahrscheinlichkeit mit Hilfe der Effektstärke aus und berechnen Sie sie für Effektstärken von .2, .5 und .8. Hinweis: Welches ist die Verteilung der Differenz der beiden gezogenen Werte? Wie wahrscheinlich ist daher eine Differenz > 0? A2: a) Wie groß muß beim rechtsseitigen Testen mit unabhängigen Stichproben für σ1 = σ2 = σ (bekannt) und n1 = n2 = n die Stichprobengröße n mindestens sein, damit die Power ≥ p (mit vorgegebenem p ≥ α) wird? (Beachten Sie den Zusammenhang mit der Effektstärke!) b) Im konkreten Beispiel sei X1 der IQ von Frauen, X2 der IQ von Männern, und X1 ∼ N (101, 225), X2 ∼ N (100, 225). α = 5%. Wie groß muß man n wählen, damit man mit mindestens 90%iger Sicherheit ein signifikantes Ergebnis erhält (d.h. die Power mindestens 90% beträgt)? c) Wie wahrscheinlich ist es unter den Bedingungen von Teil b), daß eine zufällig gezogene Frau intelligenter ist als ein zufällig gezogener Mann? Wie wahrscheinlich ist es, daß der Mittelwert von 100 Frauen größer ist als der Mittelwert von 200 Männern? Welche Rolle spielt hier die Effektstärke? A3: Was passiert, wenn jemand im Fall des Zweistichprobentests mit bekannter Varianz fälschlicherweise den Test für unabhängige Stichproben rechnet? Vergleichen Sie die kritischen Werte für die Mittelwertdifferenz (beispielsweise für den rechtsseitigen Test)! Vorausgesetzt sei, dass die Varianz in beiden Bedingungen gleich ist (nämlich σ 2 ). Zeigen Sie, dass die Frage, ob der Fehler sich auszahlt oder bestraft wird, von der Korrelation ρ der Werte in den beiden Bedingungen abhängt – wie? A4: Aufgrund längerer Aufzeichnungen sei bekannt, daß unter Standardbedingungen eine bestimmte Züchtung von Laborratten vom Zeitpunkt ihrer Geburt bis zum Alter von 90 Tagen eine mittleren Gewichtszunahme von 70 Gramm aufweist. Die mittlere Gewichtszunahme kann als normalverteilt angenommen werden. Ein Experimentator ist daran interessiert, ob eine Aufzucht der Ratten in völliger Dunkelheit einen Effekt auf die Gewichtszunahme hat. Er stellt also auf: Aufgabenblatt 15 S. 2 WS16/17 H0 : µ = 70 g H1 : µ 6= 70 g Der Experimentator ist lediglich dann daran interessiert, H0 zu verwerfen, wenn |µ − 70|/σ ≥ 0, 25 ist. Wie groß muß er die Stichprobe wählen, wenn er ein solches µ mit einer Mindestpower von 0,9 bei α = 0, 05 aufdecken möchte? A5: Zeigen Sie: Beim zweiseitigen Testen (Einstichprobenproblem, Varianz unbekannt) wird H0 genau dann auf Niveau α verworfen, wenn das (1 − α)Vertrauensintervall für µ den Wert µ0 nicht enthält. A6: Es wurden zwei Stichproben von Berlinern und von Kielern gezogen und nach ihrer Einstellung zu Umfragen befragt. Es sei vorausgesetzt, daß die Einstellungswerte in beiden Populationen normalverteilt sind mit gleicher Varianz. Die Werte waren im einzelnen: Kieler: 2, 3, 5, 6, 7, 5, 6, 8, 3 Berliner: 5, 8, 5, 6, 7, 7, 6, 8, 9, 4, 8, 10, 8 a) Geben Sie erwartungstreue Schätzungen für die Erwartungswertdifferenz und für die Varianz ab! b) Sind die Erwartungswerte der Einstellungen unterschiedlich? Testen Sie auf dem 5%-Niveau! c) Wie groß ist etwa die Power dieses Tests, wenn der wahre Erwartungswertunterschied 1 ist, und die Varianz in beiden Populationen 4 beträgt? d) Sie streben an, daß die Power 80% werden soll, und planen, zwei gleichgroße Stichproben zu ziehen. Wie groß müssen sie diese dann wählen? A7: Um der Frage nachzugehen, ob ein längerer Urlaub die Leistungsfähigkeit von Fußballspielern steigert, werden aus einer großen Population von Spielern acht zufällig herausgegriffen und nach einem ersten Leistungstest in Ferien geschickt. Danach wird ein zweiter Test durchgeführt. Die Ergebnisse: Vorher: 6 Nachher: 7 7 9 3 6 7 7 7 9 6 4 8 10 9 7 a) Wie lauten die Hypothesen? Testen Sie auf dem 1%-Niveau! Aufgabenblatt 15 S. 3 WS16/17 b) Wie groß ist etwa die Power dieses Tests, wenn der Erwartungswertunterschied gleich 1, die Varianz der Leistungen vorher und hinterher gleich 2 ist, und die Leistungen vor und nach dem Urlaub eine Korrelation von .25 aufweisen? c) Wird die Power mit wachsender Korrelation größer oder kleiner (Begründung!) d) Wie groß muß die Stichprobe werden, wenn unter den Voraussetzungen von b) die Power 70% sein soll? A8: Wie kommt die Varianzanalyse zu ihrem Namen? A9: Erläutern Sie die folgenden Begriffe: Abhängige Variable, unabhängige Variable, Stufen der unabhängigen Variablen, Fehlervarianz. A10: Ist die Alternativhypothese einer Varianzanalyse gerichtet oder ungerichtet? Führt man einen zweiseitigen oder einseitigen Test durch? A11: Beantworten Sie folgende Fragen: a) Bei welchen Fragestellungen benutzt man eine Varianzanalyse? b) Formulieren Sie die Voraussetzungen der Varianzanalyse! c) Welche Prüfverteilung benutzt man bei der Varianzanalyse? A12: Ein Pädagoge möchte die Wirksamkeit von vier unterschiedlichen Lehrmethoden vergleichen. Ihm steht eine Gruppe von 20 Personen zur Verfügung, von der er annimmt, daß sie als Zufallsstichprobe aus der ihn interessierenden Population angesehen werden kann. Er teilt die Gruppe per Zufall in vier gleich große Gruppen auf. Diese werden nun mit den unterschiedlichsten Lehrmethoden unterrichtet. Mit einem Test wird dann der Lernerfolg ermittelt. In der folgenden Tabelle stehen die so erhaltenen Ergebnisse: Methode A 12 10 17 20 11 B 26 19 24 23 - C D 15 25 17 24 24 29 21 23 - (In Gruppe B und D fehlen Meßwerte, da der Bus mit den betreffenden Schülern zum Testtermin zu spät kam.) Aufgabenblatt 15 S. 4 WS16/17 a) Man untersuche mit Hilfe der Varianzanalyse, ob diese Daten für unterschiedliche Wirksamkeit der Methoden sprechen. b) Welche Annahmen müssen gemacht werden? c) Man schätze die Erwartungswerte µ1 , µ2 , µ3 , µ4 , die Effektgrößen α1 , α2 , α3 , α4 sowie σ 2 . Aufgabenblatt 16 S. 1 WS16/17 A1: Betrachten Sie folgende Gruppen von Daten: A 1.69 1.53 1.91 1.83 B 1.82 1.93 1.94 1.63 C 1.71 1.82 1.75 1.64 D 1.69 1.82 1.86 1.91 a) Führen Sie eine Varianzanalyse durch und prüfen Sie auf Signifikanz bei α = 0, 05! b) Da die Daten zu kompliziert erscheinen, vereinfachen wir sie, indem wir 1 subtrahieren und das Ergebnis mit 100 multiplizieren. Führen Sie auch mit diesen transformierten Daten eine Varianzanalyse durch (gleicher α-Fehler). Beeinflußt die Transformation das Ergebnis des F -Tests? c) Beeinflußt die Transformation die Werte der mittleren Quadratsummen M Sbetween und M Swithin ? Wenn ja, wie? A2: Zeigen Sie, daß der zweiseitige Zweistichproben-t-Test der Varianzanalyse bei zwei Gruppen äquivalent ist! Führen Sie dazu folgende Zwischenschritte durch: a) Zeigen Sie, daß der quadrierte empirische t-Wert gleich dem F -Bruch der Varianzanalyse ist! b) Es sei U eine tN −2 -verteilte Variable. Zeigen Sie, daß U 2 dann F1,N −2 verteilt ist. Dies gilt auch für nichtzentrale Verteilungen, wobei das δ (im Nonzentralitätsparameter) bei beiden Verteilungen dasselbe ist. c) Für die α-Fraktile gilt: t2N −2; α/2 = F1,N −2; α . Machen Sie sich dazu klar, daß eine Variable einen Wert ≤ −c oder ≥ c (c > 0) genau dann annimmt, wenn die quadrierte Variable ≥ c2 ist. d) Setzen Sie nun die Ergebnisse der Teilschritte zur Begründung der Ausgangsbehauptung zusammen! A3: Bei einer Varianzanalyse mit drei Gruppen der Größen 3, 8 und 5 haben sich Mittelwerte von 6, 16 und 15 ergeben. Die (unkorrigierten) Varianzen in den Gruppen betragen 4, 6 und 3. Berechnen Sie den F -Bruch! Wird er auf einem Niveau von 5% signifikant? A4: Zeigen Sie, dass sich f 2 , δ 2 und ω 2 nicht ändern, wenn man die abhängige Variable einer Varianzanalyse linear transformiert! Aufgabenblatt 16 S. 2 WS16/17 A5: Sie möchten herausbekommen, ob sich die Faserdicke einer bestimmten Baumwollsorte in drei Anbaugebieten unterscheidet. Sie setzen α = 0, 05 und wünschen einen Unterschied von ω 2 ≥ 0, 3 mit einer Power von 1 − β = 0, 8 aufzudecken. Wie groß müssen Sie dann Ihre Untersuchungsgruppen jeweils wählen? A6: Als Maß für die Größe des Effektes wurde f 2 definiert: PJ 2 f := 2 j=1 (nj /N )αj σ2 , wobei σ 2 die Populationsvarianz, αj und nj Effektgröße und Zellbesetzung der Stufe j und J die Anzahl der Stufen bezeichnen. Zeigen Sie: f 2 ist invariant gegenüber linearen Transformationen! Das soll heißen: Wenn man die abhängige Variable linear transformiert, so ergibt sich der gleiche Wert von f 2 für die transformierte Variable. A7: Zeigen Sie: Die Effektstärke f 2 ist in dem Spezialfall gleicher Gruppengrößen gerade der Quotient aus der Varianz der Gruppenerwartungswerte µj und der Fehlervarianz σ 2 . A8: Welche Effektgrößen unterscheidet man bei der Zweiweg-Varianzanalyse? Wie drückt man diese aus? A9: Erläutern Sie den Begriff der Interaktion sowohl formal als auch inhaltlich! A10: Wie viele F -Brüche ergeben sich bei einer Zweiweg-Varianzanalyse? A11: In einem Experiment wurden die Beziehungen untersucht zwischen der Raumgröße und der Raumfarbe bei einer standardisierten Befragung, die in diesem Raum stattfand, und dem bei der Befragung gemessenen Wert für “Angst“. Man erhielt die folgenden Ergebnisse (Meßwerte für “Angst“): Raumgröße rot 130 klein 139 133 136 mittel 127 133 114 groß 109 113 Raumfarbe gelb grün blau 133 137 126 121 140 122 118 128 133 121 130 121 126 136 127 122 121 124 111 116 131 113 123 123 124 121 118 Aufgabenblatt 16 S. 3 WS16/17 a) Führen Sie aufgrund dieser Daten eine Varianzanalyse durch. b) Schätzen Sie Effektgrößen für den Zeilen-, den Spalten- und den Interaktionseffekt auf der Grundlage der vorliegenden Daten! c) Schätzen Sie die f 2 -Werte für Zeilen, Spalten und Interaktion. A12: Es soll die Wirkung eines neuen Präparates zur Behandlung von Depressionen überprüft werden. 30 Patienten, davon 15 Männer und 15 Frauen, von denen man weiß, daß sie als annähernd gleich depressiv gelten können, werden per Zufall so in drei Gruppen eingeteilt, daß in jeder Gruppe 5 Frauen und 5 Männer sind. Die erste Gruppe wird mit einem Placebo, die zweite Gruppe mit einer einfachen und die dritte Gruppe mit einer doppelten Dosis jeweils 6 Wochen lang behandelt. Anschließend wird mit einem Fragebogen die Depressivität der Patienten ermittelt. Die folgende Tabelle gebe die Ergebnisse dieser Untersuchung wieder: Männer Frauen Placebo 12 7 10 7 14 6 8 5 6 15 einfache Dosis 18 18 12 13 14 9 11 9 8 18 doppelte Dosis 23 20 20 19 18 13 11 17 16 13 Mit Hilfe einer Zweiweg-Varianzanalyse überprüfe man folgende Hypothesen: a) Die verschiedenen Behandlungen haben einen unterschiedlichen Effekt auf die Depressivität (Haupteffekt). b) Die Behandlungen haben bei männlichen und weiblichen Patienten einen unterschiedlichen Effekt (Interaktion Geschlecht und Behandlung). Welche Voraussetzungen müssen gemacht werden? Man schätze und interpretiere die Behandlungs- und Interaktionseffekte (genauer: die Effektgrößen). Letztere veranschauliche man graphisch, indem man für Männer und Frauen getrennt den Mittelwertsverlauf (als ‚Schätzung des Erwartungs- Aufgabenblatt 16 S. 4 WS16/17 wertverlaufs‘) der verschiedenen Behandlungsstufen als Polygonzug zeichnet. Anmerkung: Man kann hier auch überlegen, inwiefern die Fragen, die durch die Varianzanalyse beantwortet werden, interessant sind, und ob die Formulierungen oben (‚unterschiedlicher Effekt bei Männern und Frauen‘) angemessen sind. Aufgabenblatt 17 S. 1 WS16/17 A1: Man stelle sich folgende Situation vor: Es werden immer wieder Hypothesenpaare auf dem 5%-Niveau getestet. Bei den Hypothesenpaaren ist in insgesamt 40% der Fälle H0 richtig. Dort, wo H1 richtig ist, beträgt die Power 30%. Es werden alle signifikanten Ergebnisse veröffentlicht, während nicht signifikante Ergebnisse nie veröffentlicht werden. a) Wie wahrscheinlich ist es, daß ein veröffentliches Ergebnis stimmt? (Verwenden Sie die Bayes-Formel) b) Machen Sie sich die Komplexität dieses Problems deutlich, indem Sie einige Parameter abändern (z.B. α = 0, 01 statt 0, 05 usw.). Was geschieht insbesondere, wenn H0 immer richtig ist, oder wenn H1 immer richtig ist? A2: Ein Team von Wissenschaftlern interessiert sich für den Einfluß von gewissen Alltagsdrogen auf die Konzentrationsleistung. Bei der Untersuchung werden 9 Gruppen gebildet: Die ersten drei Gruppen erhalten Kaffee, und zwar jeweils 1, 2 bzw. 3 Tassen. Die Gruppen 4 und 5 müssen rauchen, Gruppe 4 eine Menge von 5 Zigaretten und Gruppe 5 eine Pfeife. Die nächsten drei Gruppen bekommen Alkohol, Gruppe 6 eine Flasche, Gruppe 7 zwei Flaschen Bier und Gruppe 8 vier Gläser Rotwein. Gruppe 9 schließlich ist die Kontrollgruppe. In den Zeilen der folgenden Tabelle stehen untereinander die Gruppennummer, die Gruppengröße, der Mittelwert und die (korrigierte) Streuung der Werte, die die betreffende Gruppe in einem Konzentrationstest erreicht. 1 7 26 13 2 9 18 16 3 6 30 15 4 5 8 10 18 12 14 13 6 8 16 14 7 5 10 12 8 6 6 14 9 10 24 16 Betrachten Sie die Voraussetzungen der Varianzanalyse als erfüllt (welche sind das?)! Zeichnen Sie ein Mittelwertsdiagramm! Berechnen Sie M Sw und testen Sie auf dem 5%-Niveau, ob die Alltagsdrogen einen Effekt haben! (Wie lauten die Hypothesen?) Die Wissenschaftler interessieren sich für ganz bestimmte Fragestellungen und einer von ihnen schlägt vor, statt der Varianzanalyse spezifische Hypothesen mit Kontrasten zu testen. Darauf einigen sie sich. Natürlich wollen sie nicht das α-Niveau aufblähen und beschließen, getrennt ihre Hypothesen Aufgabenblatt 17 S. 2 WS16/17 mit Hilfe von Kontrasten zu testen und dabei ein Risiko von höchstens 5% einzugehen, eine ihrer Nullhypothesen fälschlicherweise zu verwerfen. Welches sind die geeigneten Kontraste zu den folgenden fünf Fragestellungen, welches sind die Hypothesen (gerichtet oder ungerichtet?) und zu welchem Ergebnis gelangen die Wissenschaftler bei dem entsprechenden Test? a) Ein Wissenschaftler interessiert sich nur für den Rotwein und behauptet, daß dieser die Konzentration im Vergleich zur Kontrollgruppe erniedrigt. b) Der Nikotinspezialist möchte wissen, ob Nikotin im Durchschnitt eine Wirkung im Vergleich zur Kontrollgruppe hat. Er hat keine Vermutung über die Richtung des Effektes. c) Ein anderer meint, es müsse ein Unterschied zwischen der durchschnittlichen Wirkung von Kaffee und der durchschnittlichen Wirkung von Alkohol bestehen. Beim Kaffee erwartet er die besseren Leistungen. d) Den nächsten beschäftigt die Frage auch, er möchte sie aber nur dort untersuchen, wo er die deutlichsten Unterschiede vermutet, nämlich in der Gruppe 3 und in der Rotweingruppe. e) Der Kaffespezialist hat eine ganz spezifische Fragestellung. Er liegt im Dauerstreit mit einem Kollegen, der behauptet, daß die Konzentration mit der Menge des getrunkenen Kaffees linear zunimmt. Diese Behauptung soll nun widerlegt werden. Hierzu überlegt sich der Wissenschaftler zunächst, welche Beziehung zwischen den Erwartungswertdifferenzen von Gruppe 1 und 2 und von Gruppe 2 und 3 bestehen müßte, wenn tatsächlich der behauptete lineare Zusammenhang bestünde. Diese Beziehung kann er dann leicht in eine geeignete Kontrasthypothese umsetzen. Vergleichen Sie die beiden Vorgehensweisen, Varianzanalyse und Kontraste mit α-Adjustierung, und kommentieren Sie! Ein Kollege, der gerade auf Besuch ist, und der noch nichts von Kontrasten gehört hat, ist auch an der ersten Fragestellung interessiert (Rotwein-Kontrollgruppe) und testet mit einem t-Test für zwei Stichproben (auf dem gleichen Niveau). Was für ein Ergebnis erhält er? Vergleichen und kommentieren Sie! (Anmerkung: Es ist zwar wegen der größeren Power zu erwarten, daß der Kontrast dem Mittelwertsvergleich mit dem t-Test überlegen ist, dies heißt jedoch nicht, daß in jedem Einzelfall der Kontrast eher signifikant werden müßte. Überlegen Sie sich, unter welchen Bedingungen es passieren kann, daß der t-Test signifikant wird, der Kontrast jedoch nicht!) Aufgabenblatt 18 S. 1 WS16/17 A1: Man untersuche, ob sich drei Populationen hinsichtlich ihrer Erwartungswerte unterscheiden. Die drei Populationen sind Menschen unterschiedlichen Alters (20, 30 und 40 Jahre), die hinsichtlich ihres durchschnittlichen Fettkonsums (in Gramm pro Tag) untersucht werden. Die Stichproben sind: 20 Jahre: 100, 125, 80, 95, 160, 50, 80, 110 30 Jahre: 136, 156, 121, 131, 116, 146, 156, 166 40 Jahre: 140, 130, 90, 80, 150, 100 a) Wie lauten die Hypothesen? b) Erstellen Sie die Ergebnistabelle! c) Testen Sie auf dem 5%-Niveau! d) Testen Sie nun die Nullhypothese µ1 = µ3 gegen µ1 6= µ3 einmal als t-Test, einmal als Kontrast (Einzelhypothese) und einmal als post-hocTest! Kommentieren Sie! Testen Sie ebenso die Hypothese µ2 = (µ1 + µ3 )/2 als Einzelhypothese und als post-hoc-Test und vergleichen Sie wieder! e) Welche Mittelwerte unterscheiden sich signifikant (post hoc)? Welche der Hypothesen αi = 0 können post hoc verworfen werden (und warum kann diese Frage mit Hilfe von Kontrasten beantwortet werden)? A2: Stellen Sie sich vor, sie haben eine Fragestellung, in der es um die Erwartungswerte einer Variablen in 4 Gruppen geht. Die Gesamtzahl der Beobachtungen sei 20. Sie haben 5 konkrete zweiseitige Kontrasthypothesen aufgestellt. Ist es sinnvoller, diese Hypothesen einzeln mit α-Adjustierung zu testen, oder ist es sinnvoller, nach einer Varianzanalyse post-hoc-Tests durchzuführen? Beantworten Sie die gleiche Frage auch bei acht und zehn Kontrasthypothesen! Die Irrtumswahrscheinlichkeit betrage hier immer 5% (was heißt das?).