Statistisches Praktikum SS 2011

Statistisches Praktikum SS 2011
I Hypothesentest:
1. In der Lotto-Tabelle sind alle Lottoziehungen bis einschließlich 1. Mai 2010 eingetragen. In der ersten Spalte steht die Lottozahl und in der zweiten die Häufigkeit,
mit der diese Lottozahl gezogen wurde. Testen Sie zur Signifikanzzahl α = 0.05,
(a) ob die Zahlen 1 bis 10 gleich häufig vorkommen wie die Zahlen 40 bis 49,
(b) ob die 15 Primzahlen zusammen die Wahrscheinlichkeit 15/49 haben.
2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die
zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden,
eine Null bedeutet nicht bestanden. Ist die Reihenfolge
1001110111100000110001000010001111100111
von Einsen und Nullen zufällig? Wählen Sie α = 0.05 als Signifikanzzahl. Dazu
folgende Hinweise.
(a) Die Null-Hypothese, die es zu testen gilt,
lautet: die Reihenfolge der Nullen
und Einsen ist zufällig, d.h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist.
(b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf
Null.
(c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die
Approximation der Normalverteilung, um die Null-Hypothese zu testen.
II Konfidenzintervall:
1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4,
M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese
Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte
Messreihe von 100 Messungen.
2. Das Körpergewicht von Personen einer Gruppe entnehmen Sie folgenden Tabellen
T1, T2. Dabei steht in der linken Spalte das Gewicht in Kilogramm und in der
zweiten Spalte die Häufigkeit. Die Körpergewichte sind unabhängig voneinander,
deren Verteilung aber ist unbekannt. Bestimmen Sie ein 95%-Konfidenzintervall
1
für den Mittelwert und die Varianz. Wie umfangreich müsste die Stichprobe sein,
damit man für den Mittelwert ein Konfidenzintervall der Länge 0.5 kg hat?
3. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der
die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk =
log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260, deren
Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) varieren. Testen
Sie die Hypothese zur Signifikanzzahl α = 0.05, dass diese Messergebnisse dem
Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, ob die ersten
104 Primzahlen dem Newcomb-Benford-Gesetz folgen.
III Korrelationskoeffizient:
1. Gegeben sei die Tabelle mit Längen (y) und Breiten (x) (jeweils in mm) von
Muscheln. In einer zweiten Tabelle ist die monatliche Sonnenscheindauer vormittags (x) und nachmittags (y) einer Stadt angegeben. Zeichnen Sie diese Werte in
einem zweidimensionalen Diagramm auf. Unter der Annahme, dass diese Paare
(x, y) jeweils einer zwei-dimensionalen Normalverteilung entstammen, bestimmen
Sie ein 99%-Konfidenzintervall für den Korrelationskoeffizienten.
2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung
(in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten.
(b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de.
IV Kolmogorov–Smirnov– und χ2 -Test:
1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren.
Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle in (i) und (ii)
sind nicht gleich.
2. 100 Personen wurden aufgefordert, drei Zahlen aus den Zahlen 11, 12, 13, . . . , 29,
30 unabhängig voneinander auszuwählen. Die folgende Tabelle fasst das Ergebnis
zusammen, wobei in der linken Spalte die gewählte Zahl steht und in der rechten
Spalte deren Häufigkeit. Testen Sie mit dem χ2 -Test,
(a) ob jede der 20 Zahlen die gleiche Wahrscheinlichkeit hat,
2
(b) ob die 10 ungeraden Zahlen die gleiche Wahrscheinlichkeit haben wie 10
geraden Zahlen,
(c) ob die 6 Primzahlen zusammen die Wahrscheinlichkeit 0.3 haben.
V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N –Wigner–Matrix G (N ∈ N)
ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen
Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j <
i ≤ N gilt Gij = Gji , sodass G symmetrisch ist.
1. Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte
√ von N und vergleichen Sie diese mit der
Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2.
2. Führen Sie das gleiche Programm nun mit N × N –Zufallsmatrizen B aus, wobei
die zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen
Bij , 1 ≤ i ≤ j ≤ N sind un√
abhängig und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit
1/2 an. Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir
wieder Bij = Bji .
VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten
(Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander
mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N
Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander
verbunden.] Wir definieren die N × N –Adjazenzmatrix G folgendermaßen: sind zwei
Punkte 1 ≤ i 6= j ≤ N verbunden so setzen wir Gij = 1, andernfalls ist Gij =
0. G ist also eine zufällige, symmetrische N × N –Matrix mit Einträgen Null oder
Eins. Wählen Sie N = 20 und p = 1/(2N ), 0.9/N, 1.2/N, 2/N, 5/N . Erstellen Sie
Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen
und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p.
VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen
1, . . . , N , d.h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N !
Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N
mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann
ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in
die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10,
in dem Sie alle Permutationen erfassen und für L20 , in dem Sie nur einen Teil der
3
20! Permutationen erfassen. Ermitteln Sie damit eine Liste
der Werte der gewichteten
−1/2
−1/6
2
Erwartungswerte N
E(LN ) und Varianzen N
E(LN ) − E(LN )2 .
Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass
√
lim PN LN − 2 N ≤ tN 1/6 = F1 (t) ,
N →∞
wobei F1 mit
F1 (t) := exp
n
Z
−
∞
[(s − t)2 q(s)2 ] ds
o
t
die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung
der Painlevè II Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für
t → ∞, wobei Ai die Airy-Funktion ist.
VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in
Punkt V eine N × N –Wigner–Matrix. Erstellen Sie repräsentative Histogramme für
den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit
der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII).
Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass
lim PN λmax ≤ 2 + tN −2/3 = F1 (t) .
N →∞
IX Methode der kleinsten Quadrate: Für die gegebenen Stichproben bestimmen Sie
(i) die Regressionsgerade und (ii) die Exponentialfunktion y(x) = a + b exp (cx) mit
Konstanten a, b, c jeweils mithilfe der Methode der kleinsten Quadrate. Testen Sie die
Hypothesen, dass (i) die Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt werden kann. Dabei setzen Sie voraus, dass die y entsprechende
Zufallsvariable Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x
abhängt. Als Signifikanzniveau wählen Sie 5%.
Literaturhinweise:
1. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht.
2. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg
Studium.
3. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch.
4