Statistisches Praktikum SS 2011 I Hypothesentest: 1. In der Lotto-Tabelle sind alle Lottoziehungen bis einschließlich 1. Mai 2010 eingetragen. In der ersten Spalte steht die Lottozahl und in der zweiten die Häufigkeit, mit der diese Lottozahl gezogen wurde. Testen Sie zur Signifikanzzahl α = 0.05, (a) ob die Zahlen 1 bis 10 gleich häufig vorkommen wie die Zahlen 40 bis 49, (b) ob die 15 Primzahlen zusammen die Wahrscheinlichkeit 15/49 haben. 2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden, eine Null bedeutet nicht bestanden. Ist die Reihenfolge 1001110111100000110001000010001111100111 von Einsen und Nullen zufällig? Wählen Sie α = 0.05 als Signifikanzzahl. Dazu folgende Hinweise. (a) Die Null-Hypothese, die es zu testen gilt, lautet: die Reihenfolge der Nullen und Einsen ist zufällig, d.h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist. (b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf Null. (c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die Approximation der Normalverteilung, um die Null-Hypothese zu testen. II Konfidenzintervall: 1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4, M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte Messreihe von 100 Messungen. 2. Das Körpergewicht von Personen einer Gruppe entnehmen Sie folgenden Tabellen T1, T2. Dabei steht in der linken Spalte das Gewicht in Kilogramm und in der zweiten Spalte die Häufigkeit. Die Körpergewichte sind unabhängig voneinander, deren Verteilung aber ist unbekannt. Bestimmen Sie ein 95%-Konfidenzintervall 1 für den Mittelwert und die Varianz. Wie umfangreich müsste die Stichprobe sein, damit man für den Mittelwert ein Konfidenzintervall der Länge 0.5 kg hat? 3. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk = log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260, deren Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) varieren. Testen Sie die Hypothese zur Signifikanzzahl α = 0.05, dass diese Messergebnisse dem Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, ob die ersten 104 Primzahlen dem Newcomb-Benford-Gesetz folgen. III Korrelationskoeffizient: 1. Gegeben sei die Tabelle mit Längen (y) und Breiten (x) (jeweils in mm) von Muscheln. In einer zweiten Tabelle ist die monatliche Sonnenscheindauer vormittags (x) und nachmittags (y) einer Stadt angegeben. Zeichnen Sie diese Werte in einem zweidimensionalen Diagramm auf. Unter der Annahme, dass diese Paare (x, y) jeweils einer zwei-dimensionalen Normalverteilung entstammen, bestimmen Sie ein 99%-Konfidenzintervall für den Korrelationskoeffizienten. 2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung (in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. (b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de. IV Kolmogorov–Smirnov– und χ2 -Test: 1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren. Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle in (i) und (ii) sind nicht gleich. 2. 100 Personen wurden aufgefordert, drei Zahlen aus den Zahlen 11, 12, 13, . . . , 29, 30 unabhängig voneinander auszuwählen. Die folgende Tabelle fasst das Ergebnis zusammen, wobei in der linken Spalte die gewählte Zahl steht und in der rechten Spalte deren Häufigkeit. Testen Sie mit dem χ2 -Test, (a) ob jede der 20 Zahlen die gleiche Wahrscheinlichkeit hat, 2 (b) ob die 10 ungeraden Zahlen die gleiche Wahrscheinlichkeit haben wie 10 geraden Zahlen, (c) ob die 6 Primzahlen zusammen die Wahrscheinlichkeit 0.3 haben. V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N –Wigner–Matrix G (N ∈ N) ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j < i ≤ N gilt Gij = Gji , sodass G symmetrisch ist. 1. Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte √ von N und vergleichen Sie diese mit der Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2. 2. Führen Sie das gleiche Programm nun mit N × N –Zufallsmatrizen B aus, wobei die zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen Bij , 1 ≤ i ≤ j ≤ N sind un√ abhängig und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit 1/2 an. Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir wieder Bij = Bji . VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten (Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander verbunden.] Wir definieren die N × N –Adjazenzmatrix G folgendermaßen: sind zwei Punkte 1 ≤ i 6= j ≤ N verbunden so setzen wir Gij = 1, andernfalls ist Gij = 0. G ist also eine zufällige, symmetrische N × N –Matrix mit Einträgen Null oder Eins. Wählen Sie N = 20 und p = 1/(2N ), 0.9/N, 1.2/N, 2/N, 5/N . Erstellen Sie Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p. VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen 1, . . . , N , d.h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N ! Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10, in dem Sie alle Permutationen erfassen und für L20 , in dem Sie nur einen Teil der 3 20! Permutationen erfassen. Ermitteln Sie damit eine Liste der Werte der gewichteten −1/2 −1/6 2 Erwartungswerte N E(LN ) und Varianzen N E(LN ) − E(LN )2 . Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass √ lim PN LN − 2 N ≤ tN 1/6 = F1 (t) , N →∞ wobei F1 mit F1 (t) := exp n Z − ∞ [(s − t)2 q(s)2 ] ds o t die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung der Painlevè II Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für t → ∞, wobei Ai die Airy-Funktion ist. VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in Punkt V eine N × N –Wigner–Matrix. Erstellen Sie repräsentative Histogramme für den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII). Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass lim PN λmax ≤ 2 + tN −2/3 = F1 (t) . N →∞ IX Methode der kleinsten Quadrate: Für die gegebenen Stichproben bestimmen Sie (i) die Regressionsgerade und (ii) die Exponentialfunktion y(x) = a + b exp (cx) mit Konstanten a, b, c jeweils mithilfe der Methode der kleinsten Quadrate. Testen Sie die Hypothesen, dass (i) die Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt werden kann. Dabei setzen Sie voraus, dass die y entsprechende Zufallsvariable Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x abhängt. Als Signifikanzniveau wählen Sie 5%. Literaturhinweise: 1. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht. 2. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg Studium. 3. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch. 4