Statistisches Praktikum SS 2011

Werbung
Statistisches Praktikum SS 2011
I Hypothesentest:
1. In der Lotto-Tabelle sind alle Lottoziehungen bis einschließlich 1. Mai 2010 eingetragen. In der ersten Spalte steht die Lottozahl und in der zweiten die Häufigkeit,
mit der diese Lottozahl gezogen wurde. Testen Sie zur Signifikanzzahl α = 0.05,
(a) ob die Zahlen 1 bis 10 gleich häufig vorkommen wie die Zahlen 40 bis 49,
(b) ob die 15 Primzahlen zusammen die Wahrscheinlichkeit 15/49 haben.
2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die
zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden,
eine Null bedeutet nicht bestanden. Ist die Reihenfolge
1001110111100000110001000010001111100111
von Einsen und Nullen zufällig? Wählen Sie α = 0.05 als Signifikanzzahl. Dazu
folgende Hinweise.
(a) Die Null-Hypothese, die es zu testen gilt,
lautet: die Reihenfolge der Nullen
und Einsen ist zufällig, d.h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist.
(b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf
Null.
(c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die
Approximation der Normalverteilung, um die Null-Hypothese zu testen.
II Konfidenzintervall:
1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4,
M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese
Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte
Messreihe von 100 Messungen.
2. Das Körpergewicht von Personen einer Gruppe entnehmen Sie folgenden Tabellen
T1, T2. Dabei steht in der linken Spalte das Gewicht in Kilogramm und in der
zweiten Spalte die Häufigkeit. Die Körpergewichte sind unabhängig voneinander,
deren Verteilung aber ist unbekannt. Bestimmen Sie ein 95%-Konfidenzintervall
1
für den Mittelwert und die Varianz. Wie umfangreich müsste die Stichprobe sein,
damit man für den Mittelwert ein Konfidenzintervall der Länge 0.5 kg hat?
3. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der
die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk =
log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260, deren
Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) varieren. Testen
Sie die Hypothese zur Signifikanzzahl α = 0.05, dass diese Messergebnisse dem
Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, ob die ersten
104 Primzahlen dem Newcomb-Benford-Gesetz folgen.
III Korrelationskoeffizient:
1. Gegeben sei die Tabelle mit Längen (y) und Breiten (x) (jeweils in mm) von
Muscheln. In einer zweiten Tabelle ist die monatliche Sonnenscheindauer vormittags (x) und nachmittags (y) einer Stadt angegeben. Zeichnen Sie diese Werte in
einem zweidimensionalen Diagramm auf. Unter der Annahme, dass diese Paare
(x, y) jeweils einer zwei-dimensionalen Normalverteilung entstammen, bestimmen
Sie ein 99%-Konfidenzintervall für den Korrelationskoeffizienten.
2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung
(in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten.
(b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de.
IV Kolmogorov–Smirnov– und χ2 -Test:
1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren.
Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle in (i) und (ii)
sind nicht gleich.
2. 100 Personen wurden aufgefordert, drei Zahlen aus den Zahlen 11, 12, 13, . . . , 29,
30 unabhängig voneinander auszuwählen. Die folgende Tabelle fasst das Ergebnis
zusammen, wobei in der linken Spalte die gewählte Zahl steht und in der rechten
Spalte deren Häufigkeit. Testen Sie mit dem χ2 -Test,
(a) ob jede der 20 Zahlen die gleiche Wahrscheinlichkeit hat,
2
(b) ob die 10 ungeraden Zahlen die gleiche Wahrscheinlichkeit haben wie 10
geraden Zahlen,
(c) ob die 6 Primzahlen zusammen die Wahrscheinlichkeit 0.3 haben.
V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N –Wigner–Matrix G (N ∈ N)
ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen
Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j <
i ≤ N gilt Gij = Gji , sodass G symmetrisch ist.
1. Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte
√ von N und vergleichen Sie diese mit der
Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2.
2. Führen Sie das gleiche Programm nun mit N × N –Zufallsmatrizen B aus, wobei
die zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen
Bij , 1 ≤ i ≤ j ≤ N sind un√
abhängig und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit
1/2 an. Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir
wieder Bij = Bji .
VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten
(Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander
mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N
Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander
verbunden.] Wir definieren die N × N –Adjazenzmatrix G folgendermaßen: sind zwei
Punkte 1 ≤ i 6= j ≤ N verbunden so setzen wir Gij = 1, andernfalls ist Gij =
0. G ist also eine zufällige, symmetrische N × N –Matrix mit Einträgen Null oder
Eins. Wählen Sie N = 20 und p = 1/(2N ), 0.9/N, 1.2/N, 2/N, 5/N . Erstellen Sie
Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen
und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p.
VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen
1, . . . , N , d.h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N !
Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N
mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann
ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in
die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10,
in dem Sie alle Permutationen erfassen und für L20 , in dem Sie nur einen Teil der
3
20! Permutationen erfassen. Ermitteln Sie damit eine Liste
der Werte der gewichteten
−1/2
−1/6
2
Erwartungswerte N
E(LN ) und Varianzen N
E(LN ) − E(LN )2 .
Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass
√
lim PN LN − 2 N ≤ tN 1/6 = F1 (t) ,
N →∞
wobei F1 mit
F1 (t) := exp
n
Z
−
∞
[(s − t)2 q(s)2 ] ds
o
t
die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung
der Painlevè II Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für
t → ∞, wobei Ai die Airy-Funktion ist.
VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in
Punkt V eine N × N –Wigner–Matrix. Erstellen Sie repräsentative Histogramme für
den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit
der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII).
Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass
lim PN λmax ≤ 2 + tN −2/3 = F1 (t) .
N →∞
IX Methode der kleinsten Quadrate: Für die gegebenen Stichproben bestimmen Sie
(i) die Regressionsgerade und (ii) die Exponentialfunktion y(x) = a + b exp (cx) mit
Konstanten a, b, c jeweils mithilfe der Methode der kleinsten Quadrate. Testen Sie die
Hypothesen, dass (i) die Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt werden kann. Dabei setzen Sie voraus, dass die y entsprechende
Zufallsvariable Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x
abhängt. Als Signifikanzniveau wählen Sie 5%.
Literaturhinweise:
1. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht.
2. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg
Studium.
3. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch.
4
Herunterladen