3. Übungsblatt 506.556 Statistik, WS 2007/2008 1 Univ.-Prof. DI Dr. Ernst Stadlober 1.) [T] χ2 -Verteilung, Student-t-Verteilung. (a) Man beweise Satz A1: iid Sind die Zufallsvariablen X1 , X2 , . . . , Xn ∼ N (0, 1)–verteilt, dann ist Y = n X Xi2 χ2n –verteilt. i=1 Das heißt, die Zufallsvariable Y hat die Dichte 1 xn/2−1 e−x/2 2n/2 Γ(n/2) hn (x) = 0 x>0 . x<0 (b) Man beweise Satz A.2: Falls X und Y unabhängige Zufallsvariable mit X ∼ N (0, 1) und Y ∼ χ2n , dann hat die Zufallsvariable X T =p Y /n die Dichte tn (t) = −(n+1)/2 Γ((n + 1)/2) √ 1 + t2 /n , −∞ < t < ∞ . Γ(n/2) nπ 2.) [P] Konfidenzintervalle für µ und σ 2 . Eine Stichprobe aus einer Normalverteilung vom Umfang n = 10 sei gegeben durch 11.3 10.2 9.5 10.4 9.8 11.0 10.2 10.9 9.9 9.8 (a) Wie lautet das zweiseitige 95%–Konfidenzintervall für µ? (b) Es kommen zwei weitere Messwerte 10.3 dazu. Wird dadurch das Konfidenzintervall länger oder kürzer? (c) Geben Sie aufgrund der 10 Messwerte ein einseitiges 95%–Konfidenzintervall für σ 2 an. 3.) [P] Gauß-Test für µ. Das Gewicht G [in g] von Semmeln sei N (µ, 6) verteilt. Für n = 81 Semmeln ergab sich das Durchschnittsgewicht von x = 37 g. (a) Man überprüfe mittels eines zweiseitigen Tests, ob die Daten mit der Hypothese H0 : µ0 = 38 g vereinbar sind (α = 0.05). (b) Sei µ1 = 37 g der wahre Wert von µ. Wie groß ist dann der Fehler 2. Art beim Test in (a)? 3. Übungsblatt 506.556 Statistik, WS 2007/2008 2 (c) Wie groß muss der Stichprobenumfang n mindestens gewählt werden, damit der Fehler 2. Art des Tests H0 : µ0 = 38 g gegen H1 : µ1 = 37 g kleiner gleich 0.05 wird? 4.) [P] Konfidenzintervalle und Tests für Anteil p. (a) Bei der Produktion von bestimmten Bauteilen für elektronische Geräte entstehen mit einer (unbekannten) Wahrscheinlichkeit p defekte Stücke. Um Aufschluß über die Wahrscheinlichkeit p zu bekommen, wird bei laufender Produktion eine Stichprobe von n Bauteilen entnommen, die auf ihre Funktionstüchtigkeit überprüft werden. Unter geeigneten Annahmen i. bestimme man für n = 600 ein konkretes Konfidenzintervall zum (approximativen) Konfidenzniveau 0.95 für p , wenn 69 der 600 überprüften Bauteile defekt sind. ii. Der Ausschußanteil x sei wie in i. Welchen Stichprobenumfang n benötigt man mindestens, damit die Länge des 95%–Konfidenzintervalls für p kleiner gleich 0.05 wird? iii. Wie groß muß n gemäß Fragestellung ii. mindestens sein, wenn der Ausschußanteil x beliebig ist? (b) Ein Unternehmen bezieht seit langem von einem bestimmten Lieferanten einen Massenartikel, wobei der Ausschussanteil 5% beträgt. Ein Konkurrenzangebot verspricht bei gleichem Preis einen Ausschussanteil unter 5%. Unter 100 zufällig ausgewählten Artikeln des Konkurrenzangebotes waren 2 Ausschussstücke. i. Formulieren Sie einen statistischen Test als Entscheidungsgrundlage. Dabei wird die Umstellung auf ein schlechteres Konkurrenzangebot als schwerwiegender erachtet. Bestimmen Sie dann den kritischen Bereich des Tests zum Niveau α = 0.05; wie ist zu entscheiden? ii. Skizzieren Sie die Operationscharakteristik (OC) des Tests. Bestimmen Sie die Wahrscheinlichkeit für den Fehler 2. Art 1 − β, falls der tatsächliche Ausschuss anteil des Konkurrenzartikels 3% ist. iii. Welchen Test schlagen Sie bei einem Stichprobenumfang von n = 500 vor? Wie ist bei 10 Ausschussstücken zu entscheiden? 5.) [C] Konfidenzintervalle und Tests bei Lungenfunktionsdaten aimu 1985.sav aus Bsp. 3 [R 2.6.0]. (a) Analysieren Sie die Variablen fev1, fvc mit Hilfe von Stengel-Blatt-Diagrammen, Box-Plots, Fehlerbalken und Q-Q-Plots. Was liefert der t-Test bzgl. der Nullhypothesen µf vc = 5.4 und µf ev1 = 4.5? (b) Man definiere die kategorische Variable jung alt(1,2) (16–30 Jahre, 31–59 Jahre) und führe eine explorative Analyse der Variablen fvc bzgl. der Kategorien region und jung alt durch, indem man Stengel-Blatt-Diagramme, Box-Plots, Fehlerbalken und Q-Q-Plots erzeuge. 3. Übungsblatt 506.556 Statistik, WS 2007/2008 3 (c) Was liefern der Welch-Test und der t-Test beim Vergleich der beiden Altersgruppen bzw. beim Vergleich der beiden Regionen? (d) Was liefert der F -Test als Test auf gleichheit der Varianzen? (händische Berechnung)? (e) Testen Sie die Gleichheit des Lokationsparameters für fvc bzgl. der Regionen und bzgl. der Altersgruppen mit Hilfe des Mann-Whitney-U-Tests (f) Fassen Sie die Ergebnisse in Form eines Dokuments (max. 4 Seiten) zusammen. 6.) [P] Konfidenzintervalle und Tests bei zwei unabhängigen Stichproben. Der Prozentsatz von Körperfett ist ein guter Indikator für den metabolischen Energiestatus und den allgemeinen Gesundheitszustand eines Menschen. Es wurden 2 Gruppen von gesunden Studenten untersucht und deren Prozentsatz an Körperfett festgestellt. Gruppe A bestand aus n = 80 Studenten aus städtischen Regionen und Gruppe B setzte sich aus m = 60 Studenten aus ländlichen Gegenden zusammen. Es ergaben sich die folgenden Stichprobenwerte. x = 12.07 [%], sX = 3.04 [%], y = 11.04 [%], sY = 2.63 [%]. Die Meßwerte seien Realisierungen von unabhängigen Stichprobenvariablen Xi ∼ N (µX , σX ), Yj ∼ N (µY , σY ). (a) Man bestimmte ein 95%–Konfidenzintervall für die Differenz µD = µX − µY . Läßt sich ein signifikanter Unterschied zwischen den mittleren Prozentsätzen µX und µY zum Niveau α = 0.05 nachweisen? 2 /σY2 ? Ist H0 : θ = 1 zum (b) Wie lautet das 95%–Konfidenzintervall für θ = σX Niveau von α = 0.05 zu verwerfen? 7.) [CS, optional] Simulation von Konfidenzintervallen [R 2.6.0] (a) Man erzeuge m = 50 Stichprobenvektoren (X1 , . . . , Xn ) der Länge n = 20 iid mit Xi ∼ N (µ = 0, σ = 1). (b) Man berechne für jeden Vektor das arithmetische Mittel X und je ein 95%– Konfidenzinterall für den Erwartungswert µ bei bekanntem σ = 1 und für unbekanntes σ. (c) Stellen Sie diese Konfidenzintervalle graphisch in Form von Tabellen und Linienplots dar. Wie oft wird der wahre Parameter µ = 0 durch die Konfidenzintervalle überdeckt? Hinweis: Speichern Sie Ihre Übungsaufgaben (mit entsprechenden Kommentaren) unter folgenden File–Namen ab: Statistik Nachname1aufgabenr.* z.B. Statistik schiefer31.pdf und übermitteln Sie die Files per e-mail mit dem Betreff stat an [email protected]. Transfer der Files bis spätestens: Di. 11. 12. 2007, 10.00 Uhr Besprechungstermin: Mi. 12. 12. 2007, 16.15–17.45, HS BE01