Universität Potsdam Modeling and Data Analysis of Complex Systems, SoSe 09 Institut für Physik und Astronomie http://www.stat.physik.uni-potsdam.de/mdacs VL: Markus Abel / Matthias Holschneider [email protected] Ü: Karsten Ahnert / Udo Schwarz Übungsblatt 3 – Abgabe bis 18. Mai 8.30 3.1 Statistik mit Bleistift und Papier (oder LATEX) (2+3 Punkte) (a) Zeigen Sie, daß die korrigierte Stichprobenvarianz N 2 1 X S = Xi − X̄i N −1 2 i ein erwartungstreuer Schätzer der Varianz ist. (b) Die χ2 - Verteilung mit k-Freiheitsgraden ist definiert als pχ2 (x, k) = xk/2−1 e−x/2 . 2k/2 Γ(k/2) Zeigen Sie, dass der Quotient aus zwei χ2 -verteilten Zufallszahlen mit k Freiheitsgraden F -verteilt ist. Hinweis: Verteilungen von transformierten Variablen können mit Z Z Z Z p(x, y)dxdy = dzδ(z − f (x, y)) p(x, y)dxdy = pz dz = 1 berechnet werden, wobei x, y die ursprünglichen Variablen sind und z die Transformierte. 3.2 Statistik – Verteilungen (3+3 Punkte) (a) Erzeugen Sie 105 standardnormalverteilte Zufallszahlen und ziehen davon 1000 Stichproben mit einer Samplegrösse von 100. Plotten Sie die Verteilung des Mittelwertes und der Varianz der Samples. In wie weit stimmen diese Verteilungen mit den theoretischen Verteilungen überein? (Nutzen Sie qqplot oder Histogramme!) (b) Erzeugen Sie 105 Zufallszahlen einer exponential verteilten Zufallsvariablen. Ziehen Sie aus diesen Daten jeweils 100 Stichproben mit 10, 20, 100, 200 Samples. Plotten Sie die Verteilung des Mittelwertes der Stichproben für die verschiedenen Samplegrößen und vergleichen Sie mit der Normalverteilung. Hinweis: R stellt eine Funktion sample bereit, welche Stichproben aus einem Vektor auswählt. Außerdem könnte die Funktion replicate von Nutzen sein. 3.3 Statistik – Konfidenzintervalle (2+2 Punkte) Unter http://www.stat.physik.uni-potsdam.de/~kahnert/mdacs/distribution2.dat kann der Datensatz einer unbekannten Verteilung gefunden werden. (a) Bestimmen Sie den Mittelwert und die Standardabweichung. Geben Sie außerdem die 70%, 80%, 90%, 95%-Intervalle an. (b) Erstellen Sie das Histogramm des Datensatz und plotten sie darin den Mittelwert und die Konfidenzintervalle. 3.4 Statistik – Signifikanz (2 Punkte) Eine neues Medikament wird getestet. Ein älteres Präparat hat 90% Effektivität. Das neue Medikament wird von 500 Probanten genommen, und 459 sind geheilt worden. Ist die neue Entwicklung besser als das vorherige Mittel? Mit welcher Significanz kann man höhere Effektivität behaupten?