Themenliste für den Kurs 01084 - Statistisches Praktikum Sommersemester 2015 I Hypothesentest: 1. Gegeben sei jeweils eine Messreihe zweier normalverteilten Zufallsvariablen Xi mit Erwartungswert µi und Varianz σi2 , i = 1, 2. (Messreihe X1 und Messreihe X2 ) (i) Testen Sie jeweils die Hypothese H0 : σi2 = 1 gegen die Hypothese H1 : σi2 6= 1 zum Signifikanzniveau α = 0,01. (ii) Testen Sie jeweils die Hypothese H0 : µi = 2 gegen die Hypothese H1 : µi = 6 2 zum Signifikanzniveau α = 0,01. (iii) Ist die Stichprobe groß genug, um sich gegen einen Fehler 2. Art zum Niveau β = 0,01 an der Stelle µi = 1 abzusichern? 2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden, eine Null bedeutet nicht bestanden. Ist die Reihenfolge 1001110111100000110001000010001111100111 von Einsen und Nullen zufällig? Wählen Sie α = 0,05 als Signifikanzzahl. Dazu folgende Hinweise: (a) Die Null-Hypothese, die es zu testen gilt, lautet: die Reihenfolge der Nullen und Einsen ist zufällig, d. h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist. (b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf Null. (c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die Approximation der Normalverteilung, um die Null-Hypothese zu testen. II Konfidenzintervall: 1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4, M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte Messreihe von 100 Messungen. 1 2. Wir betrachten Glühbirnen, deren Lebensdauer jeweils unabhängig voneinander exp (λ)-verteilt sind. Eine Messung von N = 1000 Glühbirnen ergibt die Lebensdauer (in Jahren), eine zweite Messung von N = 10 Glühbirnen die Lebensdauer (in Jahren) (Messreihe 1 und Messreihe 2). Wir wählen für λ den Schätzer P λ̂ := N/ N x i=1 i und das Konfidenzintervall zum Niveau 1 − α gleich " 2 # χ2N,α/2 χ22N,1−α/2 , PN , P 2 N x 2 x i i i=1 i=1 wobei χ2m,β das β-Quantil der χ2 -Verteilung mit m Freiheitsgraden ist. Erklären Sie diese beiden Ansätze und geben Sie die 99%-Konfidenzintervalle an. 3. In der Aufgabe II.2 wird die Schätzung des Parameters λ erst durchgeführt nachdem alle N Glühbirnen ausgefallen sind. Wir wollen jetzt eine Schätzung durchführen, wobei wir nur bis zu einem Zeitpunkt T warten. Sei daher M (0 ≤ M ≤ N ) die Anzahl der bis zum Zeitpunkt T ausgefallenen Glühbirnen. Diese ist B N, 1 − exp (−λT ) -verteilt, d. h. Bernoulli–verteilt mit Wahrscheinlichkeit p := 1 − exp (−λT ). Seien p1 und p2 die Grenzen des Konfidenzintervalles für p. Dann ist das (1 − α)-Konfidenzintervall für λ gleich ln(1 − p1 ) ln(1 − p2 ) − ,− . T T Erklären Sie diese Sachverhalte und geben Sie das 90%-Konfidenzintervall für die folgende Werte an: T = 20, N = 500, M = 17. 4. Schätzung bei fest vorgegebener Anzahl von Ausfällen: Wir haben N Glühbirnen mit exp (λ)-verteilter Lebensdauer. Fällt eine Glühbirne aus, so wird diese sofort durch eine neue ersetzt. Wir warten ab bis M Glühbirnen ausgefallen sind und wollen daraus λ schätzen und dafür ein Konfidenzintervall angeben. Seien Tj , j = 1, . . . , M die Ausfallszeiten der Glühbirnen, wobei wir vernachlässigen, dass zwei Glühbirnen gleichzeitig ausfallen (warum?). Wir setzen T0 = 0. Die Lebensdauer Tj − Tj−1 , j = 1, . . . , M ist exp (N λ)-verteilt. Die Größe M −1 M X (Tj − Tj−1 ) = M −1 TM j=1 ist ein erwartungstreuer Schätzer für 1/(N λ) (warum?). Daher ist λ̂ := M/(N TM ) ein Schätzer für λ. Zeigen Sie, dass " # χ22M,α χ22M +2,1−α , 2N TM 2N TM 2 ein (1 − 2α)-Konfidenzintervall für λ ist. Führen Sie dies für die folgenden Daten aus: N = 60, (T1 , . . . , T10 ) = (50, 60, 95, 190, 260, 370, 460, 600, 690, 770). Nehmen Sie nun im Unterschied zu vorher an, dass eine ausgebrannte Glühbirne nicht ersetzt wird. Die gesamte Funktionsdauer aller N Glühbirnen ist nun die Zufallsvariable M X T := Tj + (N − M )TM . j=1 Daraus ergibt sich λ̂ := M/T als Schätzer für λ und das (1−2α)-Konfidenzintervall h χ2 2M,α 2T , χ22M +2,1−α i 2T . Führen Sie dies für die gleichen Daten aus der obigen Tabelle aus. 5. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk = log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Zerfall-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260, deren Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) variieren. Testen Sie die Hypothese zur Signifikanzzahl α = 0,05 , ob diese Messergebnisse dem Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, dass die ersten 106 Primzahlen bzw. die physikalische Konstanten aus der Tabelle jeweils dem Newcomb–Benford–Gesetz folgen. III Korrelationskoeffizient: 1. Wir haben eine Gruppe von 15 Männern, deren Alter mit ai und deren Blutdruck mit bi für i = 1, . . . , 15 bezeichnet wird (Daten: a;b). Nehmen Sie an, dass sowohl Alter wie Blutdruck normalverteilt sind. (i) Schätzen Sie die Korrelation ρ zwischen Alter und Blutdruck und finden Sie für ρ ein 90%-Konfidenzintervall. (ii) Testen Sie die Hypothese H0 : ρ = 0 gegen die Alternative H1 : ρ 6= 0 zum Niveau α = 0,1. 2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung (in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. (b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder 3 auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de. IV Kolmogorov–Smirnov–Test und χ2 -Test: 1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren. Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test und dem χ2 -Test zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle in (i) und (ii) sind nicht gleich. 2. Anpassungstests für die Exponentialverteilung: Zwei konkurrierende Glühbirnenhersteller geben die Lebensdauer ihrer Produkte als exponentialverteilt mit Erwartungswert 2,5 Jahre an. Als Grundlage hierfür werden jeweils Meßdaten der Lebensdauer (in Jahren) von 1000 Glühbirnen aus einer Langzeitstudie genannt: Hersteller 1 und Hersteller 2. Testen Sie beide Hypothesen mit dem χ2 -Anpassungstest sowie dem Kolmogorov– Smirnov–Anpassungstest zum Niveau α = 0,01 . V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N -Wigner–Matrix G (N ∈ N) ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j < i ≤ N gilt Gij = Gji , sodass G symmetrisch ist. (i) Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte √ von N und vergleichen Sie diese mit der Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2. (ii) Führen Sie das gleiche Programm nun mit N ×N -Zufallsmatrizen B aus, wobei die zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen Bij , 1 ≤ i ≤ j ≤ N sind unabhängig √ und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit 1/2 an. Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir wieder Bij = Bji . VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten (Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander verbunden.] Wir definieren die N × N -Adjazenzmatrix G folgendermaßen: sind zwei Punkte 1 ≤ i 6= j ≤ N verbunden, so setzen wir Gij = 1, andernfalls ist Gij = 0. G ist also eine zufällige, symmetrische N × N -Matrix mit Einträgen Null oder 4 Eins. Wählen Sie N = 20 und p = 1/(2N ), 0,9/N , 1,2/N , 2/N , 5/N . Erstellen Sie Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p. VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen 1, . . . , N , d. h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N ! Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10, indem Sie alle Permutationen erfassen und für L20 , indem Sie nur einen Teil der 20! Permutationen erfassen. Ermitteln Sie damit eine Liste der Werte der gewichteten Erwartungswerte N −1/2 E(LN ) und Varianzen N −1/6 E(L2N ) − E(LN )2 . Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass √ lim PN LN − 2 N ≤ tN 1/6 = F1 (t) , N →∞ wobei F1 mit F1 (t) := exp n Z − ∞ [(s − t)2 q(s)2 ] ds o t die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung der Painlevè– II-Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für t → ∞, wobei Ai die Airy–Funktion ist. VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in Punkt V eine N × N -Wigner–Matrix. Erstellen Sie repräsentative Histogramme für den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII). Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass lim PN λmax ≤ 2 + tN −2/3 = F1 (t) . N →∞ IX Methode der kleinsten Quadrate: 1. Für die gegebenen Stichproben bestimmen Sie (i) die Regressionsgerade und (ii) die Exponentialfunktion y(x) = a + b exp (cx) mit Konstanten a, b, c jeweils mit Hilfe der Methode der kleinsten Quadrate. Testen Sie die Hypothesen, dass (i) die Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt 5 werden kann. Dabei setzen Sie voraus, dass die y entsprechende Zufallsvariable Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x abhängt. Als Signifikanzniveau wählen Sie 5%. [Hinweis zu (ii): Logarithmieren Sie die Funktionalgleichung und schätzen Sie den Parameter a, um damit die Parameter b und c zu bestimmen.] 2. Weibull–verteilte Lebensdauer: Wir haben N Objekte, deren Lebensdauer X unabhängig voneinander Weibull–verteilt mit Parameter α > 0 und β > 0 sind, d. h. αX β ist exp (1)-verteilt. Somit ist die Verteilungsfunktion F von X gegeben durch β 1 − e−αx für x > 0 F (x) = 0 für x ≤ 0 mit Dichte f (x) = αβxβ−1 e−αx 0 β für x > 0 . für x ≤ 0 Die Überlebenswahrscheinlichkeit eines Objektes ist somit F̄ (x) := 1 − F (x) = β P (X > x) = e−αx . Es gilt dann ln ln(1/F̄ (x)) = ln α + β ln x . Seien T1 , . . . , TM die Ausfallszeitpunkte der M Objekte, wobei M ≤ N vor dem Test fest gewählt wurde. Die ausgefallenen Objekte werden nicht durch neue ersetzt. Als Schätzer für die Überlebenswahrscheinlichkeit eines Objektes dient τj := 1 − (j − 1/2)/N, j = 1, . . . , M . Seien nun aj := ln Tj , bj := ln ln(1/τj ) , j = 1...,M so ergibt sich bj = ln α + βaj + j , j = 1, . . . , M mit Fehlertermen 1 , . . . , M . Sei ā der Mittelwert der aj , j = 1, . . . , M und b̄ der Mittelwert der bj , j = 1, . . . , M . Nach der Methode der kleinsten Quadrate erhält man als Schätzer für β der Wert PM j=1 (bj − b̄)(aj − ā) β̂ := PM 2 j=1 (aj − ā) und für α der Wert α̂ := eb̄−β̂ā . Erklären Sie diese Zusammenhänge und führen Sie die Schätzung für α und β für das Beispiel aus folgender Tabelle (F̄ (x); x). Schätzen Sie daraus die mittlere Lebensdauer und Ausfallsrate eines Objektes. 6 X Spektrum von Feinberg–Zee–Zufallsmatrizen: Sei σ ∈ (0, 1] und 0 < p ≤ 1. Eine N ×N -Feinberg–Zee–Zufallsmatrix F = (Fij )1≤i,j≤N (N ∈ N) ist eine Matrix, deren erste obere Nebendiagonale nur Einsen enthält und deren erste untere Nebendiagonale zufällige und voneinander unabhängige Einträge mit den beiden möglichen Werten ±σ besitzt (die erste untere Nebendiagonale kann als (N − 1)-dimensionaler, unabhängiger Zufallsvektor aufgefasst werden). Genauer gilt, F (i, i + 1) := Fij = 1 für 1 ≤ i < N , F (i + 1, i) = σ mit Wahrscheinlichkeit p (und daher F (i + 1, i) = −σ mit Wahrscheinlichkeit 1 − p), wobei F (i, i + 1) und F (j, j + 1) stochastisch unabhängig für i 6= j sind. Alle übrigen Matrixeinträge sind 0. Wählen Sie N = 20, 100, 1000, p = 1/3, 1/2, 3/4, 19/20 und σ = 1/2, 2/3, 1 und plotten Sie das Spektrum von F . Diskutieren Sie insbesondere das Verhalten für p und σ nahe 1. XI Textanalysen: Studieren Sie die folgenden Textstellen und führen Sie die für Sie interessantesten Beispiele im Detail aus. 1. aus dem Buch von Krämer3 , S. 127–150. 2. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 214–233. 3. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 133–160. Literaturhinweise: 1. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch. 2. Hans-Hermann Dubben und Hans-Peter Beck-Bornholdt: Der Hund, der Eier legt — Erkennen von Fehlinformation durch Querdenken, Reinbek: Rowohlt. 3. Walter Krämer: Denkste! Trugschlüsse aus der Welt des Zufalls und der Zahlen, Campus Verlag Frankfurt/New York. 4. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg Studium. 5. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht. 7